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Biostatistique 

Définition : 

Biostatistique est un mot-valise issu des champs de la biologie et des statistiques 

La Biostatistique est un champ scientifique constitué par l'application de la science statistique à la 
biologie et à la médecine. ... 

Le domaine d'application des biostatistiques est large. Il peut s'agir de biométrie, de 

conception méthodologique d'études biologiques ou cliniques, ou encore du recueil, de l'analyse et du 

traitement statistique de données recueillis lors d'études 

écologiques, biologiques, agronomiques, halieutiques, de santé publique, de santé environnementale 
d'étudesépidémiologiques, médicales et/ou cliniques, pharmaceutiques, agropharmaceutiques... 

Applications 

> Santé publique 

La santé publique peut être définie de diverses manières. On peut en effet la présenter 
comme « l'étude, d'une part, des déterminants physiques, psychosociaux et socioculturels de 
la santé de la population et d'autre part des actions en vue d'améliorer la santé de la population. »* Ou 
encore, comme « une activité organisée de la société visant à promouvoir, à protéger, à améliorer et, 
le cas échéant, à rétablir la santé de personnes, de groupes ou de la population entière. » 2 

.La santé publique se démarque de la médecine essentiellement sur deux plans : 

1 . Elle met davantage l'accent sur la prévention que sur les traitements curatifs ; 

2. Elle développe une approche de population, plutôt que de s'intéresser individuellement aux 
problèmes de santé des personnes, ce qui se traduit notamment par l'adjonction de compétences qui 
relèvent des sciences humaines et sociales et notamment de la sociologie, du droit et de l'économie. 

> Épidémiologie 

L'épidémiologie est l'étude des facteurs influant sur la santé et les maladies de populations. Il s'agit 
d'une discipline qui se rapporte à la répartition, à la fréquence et à la gravité des états pathologiques. 

L'étude de la répartition et des déterminants des évènements de santé sert de fondement à la logique 
des interventions faites dans l'intérêt de la santé publique et de la médecine préventive. 

La reconnaissance de l'épidémiologie comme champ d'étude est relativement récente, puisque la 
première étude significative remonte à 1854 1 mais elle est l'un des piliers de la santé publique et de la 
médecine à travers l'histoire. 

Les approches des épidémiologistes sont variées : elles vont de l'« étude de terrain » (au cœur de la 
communauté, souvent dans un service de santé publique) au front de la recherche et de la lutte contre 
l'émergence des maladies en passant par la modélisation et la veille sanitaire. 
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> Essai clinique 

Un essai clinique, ou étude clinique, ou encore essai thérapeutique, est une étude scientifique 
réalisée en thérapeutique médicale humaine pour évaluer l'efficacité et la tolérance d'une méthode 
diagnostique ou d'un traitement. L'objectif d'un essai n'est pas d'apporter un bénéfice thérapeutique au 
volontaire 1 . Le Comité international des rédacteurs de revue médicales 2 en donne la définition 
suivante : « Tout projet de recherche qui affecte de façon prospective des sujets humains à des 
groupes d'intervention et de comparaison afin d'étudier la relation de cause à effet entre un acte 
médical et l'évolution d'un état de santé ». 

> Recherche médicale 

La recherche médicale se divise en recherche fondamentale et clinique. 

La recherche médicale fondamentale vise à mieux comprendre le corps humain et ses maladies . 

La recherche médicale clinique se base sur les résultats de la recherche fondamentale pour inventer et 
prouver l’efficacité de nouveaux traitements. 

> Génomique 

La génomique est une discipline de la biologie moderne. Elle étudie le fonctionnement d'un organisme, 
d'un organe, d'un cancer, etc. à l'échelle du génome, au lieu de se limiter à l'échelle d'un seul gène. 

La génomique se divise en deux branches : 

La génomique structurale, qui se charge du séquençage du génome entier ; 

La génomique fonctionnelle, qui vise à déterminer la fonction et l'expression des gènes séquencés en 
caractérisant le transcriptome et le protéome. 

> Génétique des populations 

La génétique des populations a des applications en épidémiologie où elle permet de comprendre la 
transmission des maladies génétiques , mais aussi en agronomie , où des programmes de sélection 
modifient le patrimoine génétique de certains organismes pour créer des races ou variétés plus 
performantes, ou plus résistantes à des maladies . Elle permet également de comprendre les 
mécanismes de conservation et de disparition des populations et des espèces ( Génétique de la 
conservation) . C'est une discipline des sciences de la vie faisant un fort usage d'outils mathématiques 

> La statistique 

La statistique constitue, en médecine, l’outil permettant de répondre à de nombreuses 
questions qui se posent en permanence au médecin : 

S Quelle est la valeur normale d'une grandeur biologique, taille, poids, glycémie ? 

S Quelle est la fiabilité d'un examen complémentaire ? 

S Quel est le risque de complication d'un état pathologique, et quel est le risque d'un 
traitement ? 

S Le traitement A est-il plus efficace que le traitement B ? 


Nursunity 


Page 8 


1 La variabilité et l’incertain 


Toutes ces questions, proprement médicales, reflètent une propriété fondamentale des 
systèmes biologiques qui est leur variabilité. Cette variabilité est la so mm e d’une variabilité 
expérimentale (liée au protocole de mesure) et d’une variabilité proprement biologique. On 
peut ainsi décomposer la variabilité d’une grandeur mesurée en deux grandes composantes : 


variabilité totale = variabilité biologique + variabilité métro logique 


• La variabilité biologique peut être elle-même décomposée en deux termes : d'une 
part la variabilité intra-individuelle, qui fait que la même grandeur mesurée chez un 
sujet donné peut être soumise à des variations aléatoires ; et d'autre part la 
variabilité interindividuelle qui fait que cette même grandeur varie d'un individu à 
l'autre. 


variabilité biologique = variabilité intra-individuelle + variabilité inter-individuelle 


La variabilité intra-individuelle peut être observée lors de la mesure de la 
performance d'un athlète qui n'est pas capable des mêmes performances à chaque 
essai, mais qui se différencie des autres athlètes (variabilité interindividuelle). En 
général, la variabilité intra est moindre que la variabilité inter. 

• La variabilité métrologique peut être elle aussi décomposée en deux termes : d'une 
part les conditions expérimentales dont les variations entraînent un facteur d'aléas ; 
et d'autre part les erreurs induites par l'appareil de mesure utilisé. 


variabilité métrologique = variabilité expérimentale + variabilité appareil de mesure 


• 

La mesure de la pression artérielle peut grandement varier sur un individu donné 
suivant les conditions de cette mesure ; il est ainsi recommandé de la mesurer après 
un repos d'au moins 15 minutes, allongé, en mettant le patient dans des conditions 
de calme maximal. Cette recommandation vise à minimiser la variabilité due aux 
conditions expérimentales. La précision de l'appareil de mesure est une donnée 
intrinsèque de l'appareil, et est fournie par le constructeur. 

2 La mesure d’une grandeur 

2.1 Unités et équations aux dimensions 

Les grandeurs mesurées possèdent la plupart du temps une unité. La distance entre Paris et 
Marseille se mesurera par exemple en kilomètres, l’épaisseur d’un cheveu en microns, le 
poids d’une orange en grammes. Dans quelle mesure ces grandeurs peuvent-elles être 
comparées ? La distance entre Paris et Marseille, et l’épaisseur d’un cheveu sont deux 
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longueurs ; leur comparaison est possible si on les mesure avec une unité commune, par 
exemple le mètre. En revanche, le poids de l’orange n’est pas comparable aux longueurs 
précédentes. 

Deux grandeurs qui peuvent être comparées sont dites posséder la même dimension. Elles 
peuvent être caractérisées par leur dimension : on parlera par exemple de longueur. Les 
dimensions de toutes les grandeurs physiques peuvent s’exprimer en fonction de sept 
dimensions de base : la longueur notée L, la masse M, le temps T, l’intensité électrique I, 
la température ©, l’intensité lumineuse J, et la quantité de matière N. 

Par exemple une vitesse est une longueur divisée par un temps. On dira que sa dimension est 
LT 1 . 

Plus précisément, de l’équation donnant la vitesse v en fonction de la distance d parcourue 
pendant le temps t, v=d/t, on déduit la relation entre les dimensions (notées entre crochets) 
des deux membres de l’équation [v] = [d\l[t\ = LT" 1 . Cette relation est appelée équation aux 
dimensions. 

Une équation aux dimensions permet donc d’exprimer la dimension de n’importe quelle 
grandeur en fonction des dimensions élémentaires, à condition de connaître les relations 
entre elles. Elle permet aussi une première validation d’une relation entre grandeurs 
physiques : les dimensions de la partie gauche et de la partie droite de la relation doivent être 
identiques. 

Déterminons par exemple la dimension d’une énergie ou d’un travail, à partir de la 
formule w =fd (un travail est le produit d’une force par une longueur). Une force est le 
produit d’une masse par une accélération (f= m.y ) et une accélération est une longueur 
divisée par le carré d’un temps. Donc [w] = [/][/] = [m][/]f 2 ][/] = ML 2 T" 2 . 

Un autre intérêt des équations aux dimensions concerne les unités des grandeurs mesurées. 
On définit un système d’unités en imposant des unités aux 7 dimensions de base, les autres 
unités de définissant à l’aide des équations aux dimensions. Le système d’unités le plus 
utilisé est le Système International, ou SI, dans lequel une longueur est mesurée 
en mètres (m), une masse en kilogrammes (kg), un temps en secondes (s), une intensité 
électrique enampères (A), une température en degrés Kelvin (K), une intensité lumineuse 
en candelas (cd), et une quantité de matière en moles (mol). 

Dans le système international, certaines unités dérivées sont évidentes : une surface 
s’exprime en mètres carrés. D’autres le sont moins. Citons Y hertz pour une fréquence, 
le pascal pour une pression, le joule pour une énergie ou un travail, le watt pour une 
puissance, le newton pour une force, le coulomb pour une charge électrique, le volt pour une 
différence de potentiel, Y ohm pour une résistance, etc. 

Il existe des grandeurs sans dimension, calculées comme le rapport de deux grandeurs de 
même dimension, mais qui possèdent pourtant une unité. Un angle est une grandeur sans 
dimension mesurée en radians dans le système international. 
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2.2 Erreurs de mesure 

La mesure d’une grandeur ne peut conduire à une valeur exacte. En premier lieu, 
l’instrument de mesure possède nécessairement une précision limitée : une règle graduée 
millimètre par millimètre ne peut donner une meilleure précision qu’un demi millimètre. En 
second lieu, la grandeur à mesurer peut être source de variabilité intra-individuelle : la 
répétition de la mesure avec le même instrument et dans des conditions identiques conduit 
alors à des résultats différents. Enfin, l’instrument de mesure peut être mal étalonné ou mal 
adapté et conduire à un biais de mesure systématique : les valeurs mesurées seront 
systématiquement trop élevées, ou systématiquement trop basses. 

Pour une grandeur X à mesurer, on note AX l’erreur de mesure. Cette erreur est généralement 
facilement connue si elle n’est due qu’à un problème de précision. S’il existe une variabilité 
intra-individuelle (raisonnablement faible), on fera intervenir l’écart-type des mesures (voir 
chapitre !0 « Estimation - Intervalle de confiance ») . Si v est la valeur mesurée, la vraie 
valeur est donc comprise entre x-AX et x+AX. 

Si une grandeur G n’est pas mesurée, mais déduite d’autres grandeurs X, Y, Z à l’aide d’une 
formule, l’erreur AG sur Gdoit se déduire des erreurs AX, A Y, A Z sur X, Y , Z. 

Le plus souvent, on utilise un calcul basé sur la différentielle totale exacte de la formule. 

Si G -f(X, Y, Z), la différentielle totale exacte 1 est : 

df = 2ldx + SLdï + SLdz 
ex ôy ez 


L’erreur de mesure est alors donnée par 


A G = Af = 


df 

AX+ 

df 

A Y + 

df 1 

ex\ 


3Y 


ez 


Supposons par exemple devoir calculer une résistance R en mesurant l’intensité 1 du courant 
qui y circule et la différence de potentiel U à ses bornes. La formule liant ces grandeurs 
est R = UH. On mesure U = 1000 volts à 1 volt près et I = 1 ampère à 10" 3 ampère près. 


AR = 

La formule donne R = 1000 ohms et l’erreur se calcule par 


1 r 


2 


Le calcul basé sur la différentielle totale exacte n’est cependant qu’une approximation (on 
confond une courbe et sa tangente). Lorsque des calculs plus exacts sont possibles, ils sont 
préférables. Ainsi, supposons avoir trouvé 100 avec une précision de 1 pour la mesure d’une 
grandeur X et nous intéresser à la grandeur Y = l/X. 


A Y = 

La formule de la différentielle totale exacte donne 
de Y comprise entre 0,0099 et 0,0101. 


AX 

A 



, donc une valeur 


Mais puisque la vraie valeur de X est comprise entre 99 et 101, la vraie valeur de Y est en 
réalité comprise entre 1/101 et 1/99, soit entre 0,009901 et 0,010101. 
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3 La décision dans l’incertain 

Pour prendre une décision diagnostique ou thérapeutique le médecin doit avoir des éléments 
lui permettant de prendre en compte cette variabilité naturelle, pour distinguer ce qui est 
normal de ce qui est pathologique (décision à propos d’un patient) et pour évaluer la qualité 
d’un nouvel examen, ou d’une nouvelle thérapeutique (décision thérapeutique). La 
compréhension des méthodes statistiques, de leur puissance et de leurs limites, est essentielle 
pour un médecin de nos jours. Tout résultat de recherche médicale résulte d’une 
expérimentation (clinique ou biologique) qui s’appuie sur une méthodologie statistique 
rigoureuse, et dont les résultats sont analysés en termes statistiques. 

De même la démarche statistique permet d’évaluer les risques (ou les bénéfices) d’une 
prescription, de déterminer dans une situation donnée l’examen qui apportera la meilleure 
information diagnostique. 

Nous voyons donc l’importance de la maîtrise de l’outil et de la démarche statistique : 

• Pour permettre les progrès de la connaissance médicale : c'est le domaine de la 
recherche clinique qui ne peut s'accomplir convenablement (définition de la 
question, mise en place du protocole expérimental, analyse des résultats) qu'en 
suivant une méthodologie statistique rigoureuse. 

• Pour mieux connaître l'état de santé d'une population, la fréquence et la gravité 
d'une épidémie (penser au SIDA), etc. Cette connaissance se fera à partir 
d'échantillons convenablement choisis et de calculs basés sur les outils de la 
statistique. Il sera alors possible de rechercher les stratégies de prévention les mieux 
adaptées, d'en évaluer leur impact. Il s'agit là des applications relevant de 
l'épidémiologie et de la santé publique. 

• Pour améliorer la pratique médicale dans ses aspects décisionnels, à savoir choisir le 
meilleur examen (clinique ou para-clinique) pour aboutir le plus rapidement et le 
plus sûrement au diagnostic. Pour optimiser la thérapeutique, choisir le traitement 
le mieux adapté à un patient donné (choix du médicament, posologie, etc). 

L’objectif de ce cours est de vous fournir les bases indispensables permettant de comprendre 
les méthodes utilisées, d’interpréter correctement les résultats de nouvelles recherches, et 
d’adopter un mode de raisonnement qui soit à même d’aider à la décision dans l’exercice de 
la médecine. 

Plus précisément nous étudierons successivement : 

1. Les bases de calcul de probabilités, qui sont indispensables à la compréhension et à 
l'utilisation des méthodes statistiques. 

2. La statistique descriptive qui permet de représenter et de quantifier la variabilité 
d'une ou plusieurs grandeurs observées. 

3. La statistique inductive qui inclura les tests statistiques permettant de retenir une 
hypothèse A plutôt qu'une hypothèse B à partir de données expérimentales (comme 
dans le cas de la comparaison de deux traitements, où l'hypothèse A est que les 
deux traitements sont équivalents et l'hypothèse B est qu'ils sont différents). 

4. Les applications des méthodes statistiques à l'épidémiologie, à l'aide à la décision 
thérapeutique et diagnostique, et les applications aux essais thérapeutiques. 
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Chapitre 1 : Statîstique(s) et Probabilité(s) 

Nous commencerons par définir les termes et les concepts importants. 

1.1 Statistique 

Le terme statistique désigne à la fois un ensemble de données d’observations, et l’activité 
qui consiste en leur recueil, leur traitement et leur interprétation. Les termes statistique, 
ou statistiques (au pluriel) englobent ainsi plusieurs notions distinctes : 

1 . D’une part le recensement de grandeurs d’intérêt comme le nombre d’habitants d’un 
pays, le revenu moyen par habitant, le nombre de séropositifs dans la population 
française. Nous voyons que la notion fondamentale qui se dégage de cette énumération 
est celle de Population. Une population est un ensemble d’objets, d’êtres vivants ou 
d’objets abstraits (ensemble des mains de 5 cartes distribuées au bridge...) de même 
nature. 

2. La statistique en tant que science s’intéresse aux propriétés des populations naturelles. 
Plus précisément elle traite de nombres obtenus en comptant ou en mesurant les 
propriétés d’une population. Cette population d’objets doit en outre être soumise à une 
variabilité, qui est due à de très nombreux facteurs inconnus (pour les populations 
d’objets biologiques qui nous intéressent ces facteurs sont les facteurs génétiques et les 
facteurs environnementaux). 

3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le 

terme statistique (au singulier) qui définit toute grandeur calculée à partir d’observations. 
Ce peut être la plus grande valeur de la série statistique d’intérêt, la différence entre la 
plus grande et la plus petite, la valeur de la moyenne arithmétique de ces valeurs, etc. 

1.2 Population et échantillon 

On appelle population P un ensemble généralement très grand, voire infini, d’individus ou 
d’objets de même nature. Tous les médecins de France constituent une population, de même 
que l’ensemble des résultats possibles du tirage du loto. Une population peut donc être réelle 
ou fictive. 


Il est le plus souvent impossible, ou trop coûteux, d’étudier l’ensemble des individus 
constituant une population ; on travaille alors sur une partie de la population que l’on 
appelle échantillon. Pour qu’un échantillon permette l’étude de la variabilité des 
caractéristiques d’intérêt de la population, il faut qu’il soit convenablement sélectionné. On 
parlerai ’ échantillon représentatif si les individus le constituant ont été tirés au sort- dans la 
population. Si par exemple on souhaite déterminer les caractéristiques « moyennes » du 
poids et de la taille des prématurés masculins on tirera au hasard un certain nombre de sujets 
parmi les naissances de prématurés de l’année. 


Chaque individu, ou unité statistique, appartenant à une population est décrit par un 
ensemble de caractéristiques appelées variables ou caractères. Ces variables peuvent être 
quantitatives (numériques) ou qualitatives (non numériques) : 
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Quantitatives 

Pouvant être classées en variables continues (taille, poids) ou discrètes (nombre 

d’enfants dans une famille) 

Qualitatives 

Pouvant être classées en variables catégorielles (couleurs des yeux) ou ordinales 

(intensité d’une douleur classée en nulle, faible, moyenne, importante). 

1.3 Statistique et probabilité 

La théorie (ou le calcul) des probabilités est une branche des mathématiques qui permet de 
modéliser les phénomènes où le hasard intervient (initialement développée à propos des jeux 
de hasard, puis progressivement étendue à l’ensemble des sciences expérimentales, dont la 
physique et la biologie). 

Cette théorie permet de construire des modèles de ces phénomènes et permet le calcul : c’est 
à partir d’un modèle probabiliste d’un jeu de hasard comme le jeu de dés que l’on peut 
prédire les fréquences d’apparition d’événements comme le nombre de fois que l’on obtient 
une valeur paire en jetant un dé un grand nombre de fois. Les éléments de calcul des 
probabilités indispensables à la compréhension des statistiques seront traités dans la 
première partie du cours. 

Sous jacente à la notion de statistiques se trouve la notion de Population dont on souhaite 
connaître les propriétés (plus précisément les régularités), permettant en particulier de savoir 
si deux populations sont identiques ou non. Ce cas est celui du cadre des essais 
thérapeutiques, où l’on considère 2 populations (patients traités avec le médicament A ou 
avec le médicament B) dont on souhaite savoir si elles diffèrent ou non (c’est le cas le plus 
simple des essais cliniques). Pour ce faire il est nécessaire de modéliser les populations, en 
utilisant des modèles probabilistes. Un modèle de ce type est par exemple de considérer que 
la taille des individus suit une distribution gaussienne. A partir de ce modèle on peut calculer 
les propriétés d’échantillons ; c’est ce qu’on appelle une déduction qui va du modèle vers 
l’expérience. A l’inverse, considérant un échantillon d’une population on peut essayer de 
reconstruire le modèle de la population. 

Cette démarche est calquée sur la démarche scientifique habituelle. Le scientifique est 
capable, en utilisant les mathématiques, de prédire le comportement d’un modèle donné 
(c’est par exemple une « loi » de la physique) : c’est la démarche déductive. A l’inverse, 
observant des faits expérimentaux il va tenter de dégager des propriétés générales du 
phénomène observé qu’il va en général représenter sous forme d’un modèle (toutes les lois 
de la physique et de la chimie sont des modèles mathématiques les plus généraux possibles 
des faits expérimentaux) : c’est la construction inductive de la théorie. Cette démarche 
générale va plus loin car le modèle permet de prédire des expériences non réalisées. Si les 
prédictions ainsi réalisées sont contradictoires avec les résultats expérimentaux alors on 
pourra avec certitude réfuter le modèle (on dit aussi qu’on l’a falsifié) ; dans le cas contraire 
on garde le modèle mais on n’est pas certain qu’il soit « vrai ». Autrement dit, à l’issue d’un 
tel test on ne peut avoir de certitude que si on a trouvé des éléments permettant de réfuter le 
modèle. Nous verrons dans la suite que cette approche se transpose exactement dans la 
démarche statistique, en particulier dans le domaine des tests. 
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Chapitre 2 : Rappels mathématiques 

2.1 Ensembles, éléments 

On appelle ensemble , toute liste ou collection d’objets bien définis, explicitement ou 
implicitement ; on appelle éléments ou membres de l’ensemble les objets appartenant à 
l’ensemble et on note : 

• - i! e ^ si p est un élément de l’ensemble A 

• B est partie de A, ou sous ensemble de A, et l’on note “ - -* ou A ° , 
s j x e B => x e A 

On définit un ensemble soit en listant ses éléments, soit en donnant la définition de ses 
éléments : 

• A = {1,2, 3} 

• X = {x : x est un entier positif} 

Notations : 

• la négation de ■ e A est * A 

• 0 est l’ensemble vide 

• E est l’ensemble universel. 

2.2 Opérations sur les ensembles 

Soient A et B deux ensembles quelconques. 

Intersection 

L’intersection de A et B, notée -* ® , est l’ensemble des éléments x tels 

que ■ “ -* et v e ^ .Soit : 

,4n5 _ | x . jc E A et x e B j 

Le terme « et » est employé au sens • e A et " si x appartient à la fois à A et à B 



Cas particulier : si A ~ ^ , on dit que A et B sont disjoints. 

Réunion 

La réunion de A et B, notée -* w ° , est l’ensemble des éléments x tels 

que ■ “ A ou x e 8 .Soit : 

A b _ | x . x c A ou x - b j 
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Le terme « ou » est employé au sens x e ou ^ si x appartient à A, ou à B, ou 
à A et B (car v e ^ et ^ signifie '■ e -* et x E ^ ). 



Complémentaire 

Le complémentaire de A est l’ensemble des éléments de E qui n’appartiennent pas 
à A. 

Ca = A = {x : jc g A } 



Différence 

La différence entre A et B, ou complémentaire de B relatif à A, est l’ensemble des 
éléments de A qui n’appartiennent pas à B. 

À - B = C { 3 = { jc : jc é B et x e A} 


C . 3 

JT ____ 


|iii 

Il II |f 1 3 \ 

e ^ 



Algèbre des ensembles 


À KJ A = A 

A ni = A 

Uul)uC - ,4 u [3 u C) 

(A r\ B) r\C — A ri (B ri C) 

A KJ B = B KJ A 

Ar\B - 3 r\A 

A 'j ( B n, C) - (A kj B) r\ (A kj C ) 

A r\(BKjC) - (A hB)kj (A n, C ) 

A kj 0 - A 

A r\ E - Â 

A \J E — E 

A n 0 = 0 

a kj Ca = e 

A ri Ca = 0 

CCa = A 

Ce = 0 C 0 = e 

C (A kj 3) = C A r\CB 

C(AniT) = CawC# 
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Chapitre 3 : Eléments de calcul des Probabilités 

3.1 Introduction 

Le calcul des probabilités est la théorie mathématique, donc fondée axiomatiquement, qui 
permet de modéliser des phénomènes aléatoires, ou non déterministes. 

De tels phénomènes sont bien représentés par les jeux de hasard dont l’étude a initié le 
calcul des probabilités. Considérons le cas du jeu de dés ; lorsqu’on jette un dé on est certain 
qu’il va tomber sur la table (phénomène déterministe), mais on n’est pas capable de prédire 
la valeur qui va sortir (phénomène aléatoire). 

Un phénomène déterministe est un phénomène dont on peut prévoir le résultat ; les lois de la 
physique classique sont des modèles permettant de prédire le résultat d’une expérience 
donnée. La loi d’Ohm permet de prédire la valeur de l’intensité du courant connaissant la 
résistance et la tension aux bornes. Les lois de la physique mettent en évidence une 
régularité qui permet de prédire les résultats d’une expérience lorsqu’on contrôle les causes. 
Les phénomènes aléatoires exhibent un autre type de régularité. Prenons le cas des lois de 
Mendel. Mendel était un biologiste qui étudiait les résultats du croisement de deux espèces 
de plantes ; plus précisément, il étudiait la transmission de caractères comme la couleur, 
l’aspect, etc. Une observation typique de régularité d’un nouveau type est d’observer que, 
sur une série suffisamment grande de croisements de deux espèces A et B, on observait par 
exemple, dans 1/4 des cas, les caractères de A, et dans 3/4 des cas, les caractères de B. Une 
telle régularité fréquentielle a donné lieu à ce qu’on appelle les lois de Mendel. Cette 
régularité permet de prédire la fréquence d’apparition d’un phénomène, ce qui est plus 
« faible » que la prédiction déterministe. L’étude et la modélisation de tels phénomènes (la 
recherche de lois) est le champ d’application du calcul des probabilités. 

3.2 Expérience aléatoire, ensemble fondamental et événements 

Expérience aléatoire 

On s’intéresse ici aux seules expériences dont le résultat n’est pas prévisible, les 
expériences aléatoires. Une expérience aléatoire est aussi appelée une épreuve. 

Ensemble fondamental 

Pour une expérience aléatoire donnée, l’ensemble des résultats possibles est appelé 
l’ensemble fondamental, que nous noterons E dans la suite du cours. 

Chaque résultat d’expérience est un point de E ou un élément de E. 

Evénement 

Un événement A est un sous ensemble de E, c’est-à-dire un ensemble de résultats. 

L’événement {a}, constitué par un seul point de E, donc par un seul résultat a e ^ , 
est appelé événement élémentaire. 

L’ensemble vide 0 ne contient aucun des résultats possibles : il est 
appelé événement impossible. 

L’ensemble E contient tous les résultats possibles : c’est l’événement certain. 

Si E est fini, ou infini dénombrable, tout sous-ensemble de E est un événement ; ce 
n’est pas vrai si E est non dénombrable (ceci sort du cadre de ce cours). 

On note parfois O l’ensemble de tous les événements. 

Exemples 

1 . On jette un dé et on observe le résultat obtenu. L’ensemble fondamental est formé par les 
6 résultats possibles : 

£={1,2, 3, 4, 5, 6} 

L’événement correspondant à l’apparition d’un nombre pair est A = {2, 4, 6}, qui est 
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bien un sous ensemble de E. 

L’événement correspondant à l’apparition d’un nombre premier est B = { 1, 2, 3, 5 }, et 
l’événement correspondant à l’apparition d’un 3 est C = {3}. 

2. Dans l’exemple précédent E était fini et donc dénombrable ; E peut être infini 
dénombrable comme dans le cas suivant. On jette une pièce de monnaie jusqu’à ce qu’on 
obtienne pile ; l’ensemble fondamental correspondant est la suite des nombres 

entiers E = { 1, 2, 3, n, ...} puisqu’on peut avoir un pile au bout d’un jet, de 2 jets, 
de n jets, n étant aussi grand que l’on veut. 

3. On vise avec une fléchette une cible suffisamment grande ; si on admet que la fléchette 
est très fine, co mm e le serait un point de la géométrie, l’espace fondamental est la 
surface de la cible qui est constituée de points et donc infinie et non dénombrable. 

3.3 Opérations sur les événements 

Les événements peuvent se combiner entre eux pour former de nouveaux événements. 

Si A et B sont deux événements, les opérations de combinaison sont : 

1 . * - “ est l’événement qui se produit si A ou B (ou les deux) est réalisé. 

Il est parfois noté A- B ou ^4 ou b. 

2. A “ est l’événement qui se produit si A et B sont réalisés tous les deux. 

Il est parfois noté A - B ou a e t b. 


3. 


y A 


négation 


est l’événement qui se produit quand A n’est pas réalisé. On l’appelle aussi 
ion de A. 


Il est parfois noté « "™ “ », ou 


non A », ou A 

Evénements incompatibles 

Quand deux événements A et B sont tels que A " B = 0 , q s ne p euven t être réalisés 
simultanément. On dit qu’ils s’excluent mutuellement, ou qu’ils sont incompatibles. 
Système complet d’événements 

On dit que les événements Ai, Ai, ..., A„ forment une famille complète si 
les Ai constituent une partition de E, c’est-à-dire si : 

1 . les événements sont deux à deux disjoints : " 1 k ^ - =l -^j ' “/ &') 

= E 

2. ils couvrent tout l’espace : 1 

Exemple 

Reprenons l’exemple précédent du jeu de dés : 

E = { 1, 2, 3, 4, 5, 6 },A= {2, 4, 6 }, B = { 1, 2, 3, 5}, C = {3}. 

A u B = { 1, 2, 3, 4, 5, 6 } = a pp ar ition d’un nombre pair ou premier 

-- B = ! _ ; = a pp ar ition d’un nombre pair et premier 
C - { 1 , 2 , 4, 5 ,6 f = a pp ar jo on d’on nombre autre que 3 


A r\C - 0 . 


: A et C s’excluent mutuellement. 
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Chapitre 4 : Probabilité Conditionnelle ; Indépendance 

et Théorème de Bayes 

4.1 - Probabilité conditionnelle 


Soient A et B deux événements quelconques d’un ensemble fondamental E muni d’une loi 
de probabilité Pr. On s’intéresse à ce que devient la probabilité de A lorsqu’on apprend 
que B est déjà réalisé, c’est-à-dire lorsqu’on restreint l’ensemble des résultats 
possibles Eh. B. 


La probabilité conditionnelle de A, sachant que l’événement B est réalisé, est notée Pr(A/ B ) 
et est définie par la relation suivante : 


P r{A/ 3) = 


PH A r\ B) 

phT) 


Equation 1 : probabilité conditionnelle 


Dans cette équation, les probabilités des événements A ~ et B doivent être calculées sur 
tout l’ensemble fondamental E, comme si on ne savait pas que B s’est déjà réalisé. Sinon, on 
obtient évidemment Pr(B ) = 1 . 



Figure 1 : probabilité conditionnelle 


Cette relation générale pour tout espace probabilisé s’interprète facilement dans le cas 
où E est un espace équiprobable (mais cette relation est vraie pour un espace non- 

équiprobable !). En notant W le nombre d’éléments deA : 


PHA r\3) 



= \ 3 \ 

\E\ 


PHA/3) 


A n J| 
\B\ 


Pr(A / B) traduit le rapport de la surface de -* ^ sur la surface de B dans la figure 1. 

Toujours dans le cas où E est équiprobable, on a 


PHA/3) = 


nombre de réalisations possibles de A et 3 en même temps 

nombre de réalisations de B 
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Cette interprétation de la probabilité conditionnelle, facile à appréhender dans le cas 
d’équiprobabilité, est la définition générale de la probabilité conditionnelle qu’on doit 
utiliser telle quelle, sans chercher une interprétation fréquentiste dans tous les cas. 

Exemple 

On jette une paire de dés bien équilibrés (espace équiprobable). On observe une 
réalisation de l’événement {somme des dés = 6}. Quelle est la probabilité pour qu’un 
des deux dés ait donné le résultat 2 ? 

B = { somme des deux dés = 6 } 

A = (au moins un des deux dés donne 2} 

B= {(2, 4), (4, 2), (1,5), (5, 1), (3,3)} 

Nombre de réalisations de ^ = {(2, 4), (4, 2)} = 2 


Pr{A/B) 

D’où 


\Ar\B\ _ 2 


\B\ 


2 , alors que 


4.2 Théorème de la multiplication 


n 

36 


Reprenons l’équation !, définition des probabilités conditionnelles 
On en tire immédiatement 


P AA/ 3) = 


Pr(A n 3) 
Pr(B) 


Pr(Ar\B) — Pr\.A B'\Pr{B'\ — Pr(B/A)Pr(A) 

Equation 2 : théorème de la multiplication 

L’équation 2 peut se généraliser facilement. Soient Ai, ..., A n des événements quelconques 
d’un espace probabilisé ; à partir de l’équation 2, on montre : 


PrÇA l riA 2 r\ ... = Pr{Â^)Pr{A 2 /Â^PriÂ^/{A^ nij-.- 


Exemple 

Une boîte contient 10 articles dont 4 sont défectueux. On tire 3 objets de cette boîte. 
Calculer la probabilité pour que ces 3 objets soient défectueux. 

Pr( 1 er défectueux) = 4/10 

p r (2 ème défectueux /1 er défectueux) = 3/9 

Pr( 3 ème défectueux / 1 er et 2 ème défectueux) = 2/8 

Pr( 1 er et 2 ème et 3 ème défectueux) = 4/10x3/9x2/8 = 1/30. 

4.3 Diagramme en arbre 

On considère une séquence finie d’expériences dont chacune d’entre elles a un nombre fini 
de résultats possibles. Les probabilités associées aux résultats possibles d’une expérience 
dépendent du résultat de l’expérience précédente ; il s’agit de probabilités conditionnelles. 
Pour représenter cette séquence, on utilise une représentation « en arbre », le théorème 
précédent permettant de calculer la probabilité de chaque feuille de l’arbre. 
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Exemple :0n sait que les taux de réussite au concours dans les trois CHU Pitié, Saint 
Antoine et Broussais (l’université Pierre et Marie Curie a longtemps comporté ces 3 CHU) 
étaient respectivement (données arbitraires) de 0,20 ; 0,15 ; et 0,10 

(0,20 = Pr(Réussite/Pitié)) ; on sait que 1/4 des étudiants de Paris VI étaient à Saint Antoine, 
1/4 à Broussais et 1/2 à la Pitié. Quelle était la probabilité qu’un étudiant de Paris VI soit 
reçu au concours ? 



Pr iR r\ Saint Antoine! - 0. 15 x I 

4 


Pr(R n Pitié) = 0. 20 x I 


PAR n Broussais) — 0, 10 x - 

4 


R signifie réussite et E échec. 

Pr(R] = PAR r\ Saint Antoine) + PAR n Pitié) + PAR n Broussais) 

Pr(R) = 0,15x1/4 + 0,20x1/2 + 0,10x1/4 = 0,1625 

La probabilité qu’un chemin particulier de l’arbre se réalise est, d’après le théorème 
de la multiplication, le produit des probabilités de chaque branche du chemin. 

Les chemins s’excluant mutuellement, la probabilité d’être reçu est égale à la somme 
des probabilités d’être reçu pour tout chemin aboutissant à un état R (reçu). 

4.4 - Théorème de Bayessectums 

En reprenant l’équation 2 (section 4.2) , on obtient la formule de Bayes : 

Pr(A/B)Pr(B) 

Pr{B/A) = — - _ - - - 

P H A) 

Equation 3 : formule de Bayes 

Le théorème est une forme développée de cette formule que nous introduisons maintenant. 

Considérons des événements Ai, ..., A„ tels qu’ils forment une partition de l’ensemble 
fondamental E. 

Par définition, les Ai s’excluent mutuellement et leur union est E : 


V(j */),(4nA, = 0) 

J i = i 
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Soit B un événement quelconque 



! = i 1 uJ jU ...ui, elde SnE = ! 


, on tire 


B = B n (A ■ kj A i u ... u A J 

*■ 1 à. fi- 


c •* a- + u +• v- % - f5 n.,4 ,') u (£ r\A 2 ) \j ... u {Æ r\A„) 

Soit, par distributivité, ** * 1 . 

En remarquant que les ù sont exclusifs, puisque les Ai le sont, et en appliquant la 
3 ème règle du calcul des probabilités on obtient la formule dite des « probabilités totales » 

Pr(B'\ — Pr [B n Â j) + Pr{B c\ A t) + — + Pr(_B n. À n ) 

Equation 4 : probabilités totales 

En appliquant le théorème de la multiplication : 

Pr(B') — Pr (3 "A • "\Pr(A> ) + Pr{3 -■ A~> )Pr(Â t) + ... + Pr(B/Â n ) Pr (A n ) 

Pr( B /A -.\Pr (A =) 
Pr{A-/B) = — - — — — 

Or, par la forme simple du théorème de Bayes, on a ■ ■' 

D’où le théorème de Bayes : 


PKA-/B) = 


Pr(3/A-)Pr(Aj) 


Pr(B A j )Pr(Aij + Pr(B AP] Pr (AP) + ... + Pr(B ' A n 

Equation 5 : théorème de Bayes 


-ùfi) 


Exemple 1 

Reprenons l’exemple des résultats au concours des étudiants de Paris VI. 

Comme précédemment, soit R l’événement « un étudiant de Paris VI est reçu ». On a, 
en notant Ci, Ci, C 3 les 3 anciens CHU Saint Antoine, Pitié et Broussais 
respectivement : 

Pr(R) = Pr(R/Ci)Pr(Ci) + Pr{PJCi)Pr{Ci) + Pr(R/C 3 )Pr(C 3 ) 

[noter que c’est la même chose que la somme des probabilités des chemins de l’arbre, 
qui conduisent à un succès] 

Le théorème de Bayes permet de répondre à la question duale. Au lieu de chercher la 
probabilité d’obtenir un étudiant reçu sachant qu’il venait d’un CHU donné, on 
cherche la probabilité qu’un étudiant ait été inscrit à un CHU donné sachant qu’il a 
été reçu (probabilité des causes). 
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Calculons la probabilité qu’un étudiant reçu soit issu du CHU Pitié-Salpêtrière. 


/V(C-,/R) 


Pr(R/C,)JV(C,) 

PnR/ CyjPrlC ■) + Pr(R/ C 2 )Pr(C 2 ) + PnR/ C;)Pr(C ;) 


Avec Pr(C i) = 0,25 ; Pr(C 2 ) = 0,50 ; Pr(C 3 ) = 0,25 ; 
et Pr(R/Ci) = 0,15 ; Pr(R/C 2 ) = 0,20 ; Pr(R/C 3 ) = 0,10. 


PrfCVRÏ 

D’où 


0, 20 x 0, 50 

0, 15 x0,25 + 0, 20x0, 50+0, 10 x0,25 


0, 61 


Ce qui signifie que, dans ce cas, la probabilité qu’un étudiant appartienne à Ci, s’il 
est reçu, est plus grande que si l’on ne sait rien (probabilité a priori Pr(Ci) = 0,50). 
Cette façon de calculer les probabilités des causes connaissant les effets est essentielle 
en médecine. En effet, le problème du diagnostic peut être posé en ces termes. 

Exemple 2 

Considérons, pour illustrer notre propos, le problème du diagnostic d’une douleur 
aiguë de l’abdomen. Il s’agit d’un patient arrivant aux urgences pour un « mal au 
ventre ». 

Si l’on ne sait rien d’autre sur le patient (on n’a pas fait d’examen clinique ou 
complémentaire), on ne connaît que les probabilités d’avoir tel ou tel diagnostic si on 
observe une douleur. 

Soient D\, D 2 et D 3 les 3 diagnostics principaux (il y en a en fait au moins une 
douzaine) et exclusifs ; par exemple D\ = appendicite, D 2 = perforation 
d’ulcère, D 3 = autres diagnostics. 

Soit un signe .s i pour lequel on connaît Pr(si/D{), Pr{s\ID 2 ), et Pr(si/D 3 ). 

Par exemple, si serait « présence d’une fièvre > 

38,5?C » ; Pr(si/Di) = 0,90 ; Pr(si/D 2 ) = 0,30 ; etPr(si/D 3 ) = 0,10. 

Ces probabilités peuvent être estimées sur une population de patients en dénombrant 
le nombre de sujets ayant le diagnostic D\ et présentant le signe si. De même, on peut 
connaître Pr(Di), Pr(D 2 ) et Pr(Z) 3 ). 

Le problème diagnostique se pose comme celui de choisir par exemple le diagnostic 
le plus probable connaissant le signe si ; pour ce faire, on 

calcule Pr(D\/s\ ), Pr(D 2 /s\ ), PiiDils \ ) et on retient le diagnostic qui a la plus grande 
probabilité : c’est l’application de l’approche bayesienne au problème de l’aide au 
diagnostic. 

4.5 Indépendance entre événements 

On dit que deux événements A et B sont indépendants si la probabilité pour que A soit 
réalisé n’est pas modifiée par le fait que B se soit produit. On traduit cela 
par Pr(A / B) = Pr(A). 


Pr{A/B) = 

D’après la définition d’une probabilité conditionnelle, 
définition : 


Pr{A n B) 
P H B) 


on tire la 
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A et B sont indépendants si et seulement si 1 Pr{A)Pr{ B \ 

La symétrie de cette définition implique qu’on a aussi bien Pr(A / B) = Pr(A ) (A est 
indépendant de B) que Pr{B IA) = Pr(B) ( B est indépendant de A) : l’apparition d’un des 
deux événements n’influe pas sur l’apparition de l’autre. 

Note 

Ce qui est défini précédemment est l’indépendance de deux événements. Si on 
considère maintenant 3 événements A, B, C, on dira que ces 3 événements sont 
indépendants : 

1. s’ils sont indépendants 2 à 2 : A indépendant de B ; A indépendant de C ; 
et B indépendant de C 

2. et si nB r\ C) = Pr{Â)Pr{B)Pr{C) condition n’est pas une 

conséquence des précédentes. 

4.6 Indépendance, inclusion et exclusion de deux événements 

Considérons deux événements A et B. 

1 . Si A c " (A est inclus dans B) : si A est réalisé, alors B aussi. 



2. Alors ^ ~ 


— Pr(A ) 


Pr{B/ Â) 

D’où 


P r {À n B) 
Pr(A ) 


Pr{A/B) = 
et 


Pr(A n, B) 
Pr(B) ' 


Pr(A") 

Pr(B) 


3. 


A et B ne sont pas indépendants. 

Si A ~ " = (A et B sont exclusifs) : si A est réalisé, B ne peut pas l’être. 



4. Alors PrtA^B") Pr(0) 0. 


Pr(A/B) = 

D’où 


Pr(A n B) 
Pr(B) 



De même A et B ne sont pas indépendants. 
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Chapitre 5 : Evaluation de l’intérêt diagnostique des 

informations médicales 


5.1 - Introduction 

La tâche essentielle des médecins est de traiter les patients. Pour prescrire un traitement, il 
faut savoir, plus ou moins précisément selon les cas, ce dont souffre le malade. Pour résumer 
en un seul terme un processus physiopathologique complexe, les médecins ont créé des 
concepts : les diagnostics. 

La recherche « du » diagnostic est donc la première étape de la consultation clinique. Pour 
parvenir au diagnostic, le médecin accumule des informations, dont certaines lui sont 
spontanément livrées par le patient (le motif de la consultation, les symptômes), d’autres 
doivent être recherchées mais sont disponibles immédiatement (les signes physiques), 
d’autres enfin sont d’obtention plus ou moins difficile et coûteuse (les résultats d’examens 
complémentaires). De nouvelles procédures diagnostiques apparaissent fréquemment : on a 
vu, par exemple, l’apparition des échographies, de la tomodensitométrie (scanner), de 
l’IRM, pour ne citer que le domaine de l’imagerie. Il n’est bien sûr pas question d’effectuer 
tous les examens complémentaires sur tous les malades : il faut donc préciser les indications 
de ces examens, ce qui repose sur l’évaluation de leur intérêt diagnostique. Avant d’aborder 
la méthodologie de l’évaluation, nous reviendrons sur certains concepts utilisés dans ce 
paragraphe. 

5.1.1 Le diagnostic 

On peut définir un diagnostic comme un concept résumant l’état d’un individu. Le terme de 
« diagnostic » est donc beaucoup moins précis qu’on pourrait le penser à première vue : on 
peut en général fournir plusieurs diagnostics pour un même état physiopathologique, les 
termes diagnostiques utilisés dépendant de l’aspect privilégié. Parmi ces aspects, on peut 
citer : 

• la symptomatologie 

• la physiopathologie et l'étiologie 

• la conduite thérapeutique 

En pratique, la précision du diagnostic dépendra souvent des possibilités thérapeutiques : par 
exemple, on ne recherchera pas, en général, le virus responsable d’un syndrome grippal, 
surtout si on s’attend à ce que la maladie guérisse spontanément. 

D’un point de vue statistique, le diagnostic sera souvent considéré co mm e une variable 
aléatoire binaire : le patient souffre ou ne souffre pas de l’affection considérée, ou, exprimé 
autrement, le diagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable 

seront notées M et - * (maladie présente ou absente), ou D et ^ (diagnostic vrai ou faux). 
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5.1.2 Les informations médicales 


On divise l’ensemble des informations médicales en signes cliniques et signes 
complémentaires. Les signes cliniques sont divisés en signes fonctionnels ou symptômes, 
décrits par le malade (spontanément ou par l’interrogatoire) et signes physiques, recherchés 
par le médecin. Les signes complémentaires peuvent être biologiques ou radiologiques. Leur 
intérêt peut être : 

• diagnostique (caractère malin ou bénin d'une tumeur) 

• thérapeutique (localisation précise d'une tumeur) 

• pronostique (extension ganglionnaire) 

D’un point de vue statistique, ces signes peuvent être représentés par des variables binaires 
(présence ou absence d’un nodule sur une image) ou continues (cholestérolémie). 

Nous considérons ici le seul cas d’un signe binaire, présent (noté S) ou absent (noté ). 

Dans la suite, on considère que la présence du signe est évocateur de la maladie M. 

Si l’information est de type continu, on se ramène au cas binaire par l’introduction d’un 
seuil : d’un côté du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de 
l’autre côté du seuil, les valeurs sont dites pathologiques, et le signe binaire est présent. 

5.1 .3 Situation expérimentale et estimation 

Quand on cherche à évaluer l’intérêt diagnostique d’un signe pour une affection, on 
recherche le signe chez des individus présentant ou non l’affection considérée. Deux 
situations expérimentales sont à envisager : 

• un échantillon représentatif d'une population est constitué. On pourra estimer, à 
partir de cet échantillon, toutes les probabilités d'événements par les fréquences 

observées correspondantes (cette manière de faire sera revue plus tard, référence 
croisée non définie) ; 

• deux échantillons sont constitués, l'un représentatif des individus pour lesquels le 
diagnostic est vrai, l'autre représentatif des individus pour lesquels il est faux. Cette 
manière de procéder est souvent la seule possible en pratique, surtout quand la 
maladie considérée est rare. Il faut remarquer, cependant, qu'on ne peut plus 
estimer n'importe quelle probabilité par la fréquence observée correspondante ; ce 
point sera développé plus loin dans ce chapitre. 

Remarque : nous utilisons actuellement le mot estimation dans le sens à’’ approximation de 
la vraie valeur. Nous donnerons des définitions plus rigoureuses dans le chapitre 10. 
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5.2 - Les paramètres de l’évaluation 
5.2.1 Sensibilité et spécificité 

La sensibilité d’un signe pour une maladie est la probabilité que le signe soit présent si le 
sujet est atteint de la maladie considérée. 

Il s’agit donc de la probabilité conditionnelle qu’on peut noter : 

Sensibilité = Se =Pr(S / M) 

Un test diagnostic est donc d’autant plus sensible que les sujets atteints de la maladie 
présentent plus souvent le signe S. 

La spécificité d’un signe pour une maladie est la probabilité que le signe soit absent si le 
sujet n’est pas atteint de la maladie. 

De manière similaire, on a : 


Spécificité = Sp = Pr(S/M) 


Un test diagnostic est donc d’autant plus spécifique que les sujets indemnes de la maladie 
présentent moins souvent le signe S. 

Pour un examen « parfait », c’est-à-dire n’effectuant aucune erreur, les valeurs de la 
sensibilité et de la spécificité sont égales à 1 . 

Si la présence du signe est définie par un « seuil de positivité », on observe que ces deux 
paramètres varient en sens inverse lorsqu’on fait varier ce seuil. Ceci explique qu’un seul de 
ces deux paramètres ne suffise pas à évaluer un examen. Supposons par exemple qu’on 
s’intéresse au signe température vis à vis de la grippe. On considère que le signe est présent 
si la température dépasse un certain seuil, par exemple 39?C. Si on augmente le seuil pour le 
porter à 40?C, la probabilité de dépasser le seuil (chez les sujets grippés) va diminuer, donc 
la sensibilité diminue. En revanche, la probabilité d’être en dessous du seuil (chez les sujets 
non grippés) va augmenter, donc la spécificité augmente. 

Un test diagnostique de bonne sensibilité conduit à un résultat positif chez presque tous les 
malades. Il est donc utilisable pour un dépistage. Si le test possède une bonne spécificité, il 
conduit à un résultat négatif chez presque tous les non-malades. Il pourrait donc être utilisé 
en tant qu’examen de confirmation du diagnostic. 

Ces considérations sont bien sûr schématiques, d’autres éléments intervenant dans 
l’évaluation, co mm e la fréquence de la maladie (prévalence), les risques liés à la maladie, à 
l’examen, l’existence et les performances d’autres examens concurrents... 
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5.2.2 Valeurs prédictives 


En pratique, quand un médecin reçoit le résultat d’un examen complémentaire, positif ou 
négatif, il ne sait pas si le patient souffre de l’affection qu’il cherche à diagnostiquer ou non, 
et les probabilités qui l’intéressent s’expriment de la manière suivante : quelle est la 
probabilité de présence de la maladie M chez ce patient, sachant que l’examen a donné un 
résultat positif (ou négatif) ? Ces probabilités sont appelées valeurs prédictives. Plus 
précisément, on a : 

• la valeur prédictive positive d'un signe pour une maladie est la probabilité que le 
sujet soit atteint de la maladie si le signe est présent ; 

• la valeur prédictive négative d'un signe pour une maladie est la probabilité que le 
sujet soit indemne de la maladie si le signe est absent. 

On peut noter ces paramètres : 

VPP = PHM/S) 

VPN = Pr(M/S) 


Comme les sensibilités et spécificité, les valeurs prédictives positive et négative varient en 
sens inverse, et doivent donc être considérées simultanément. 


Les valeurs prédictives peuvent s’exprimer en fonction du couple sensibilité - spécificité, et 
de la fréquence de la maladie dans la population (cette probabilité Pr(M) s’appelle 
la prévalence de la maladie). Il suffit d’utiliser le théorème de Bayes : 


VPP = PHM/S) = 


Pr(S/ M)Pr(M) 

Pr (S /M) P(M) + Pr(S /M) Pr{M) 
Se x Pr (AT ) 


Se x Pr{M) + (1 - Sp) x ( 1 - Pr(M}) 


VPN = Pr(M/S) = 


Pr(S /M)Pr(M) 


Pr{S/M)P{M ) + Pr{S/M)Pr{M) 
Sp x (1 -Pr{M)) 

( 1 - Se) x Pr(M) + Sp x (1 - Pr(Af)) 


5.2.3 Comparaison des deux couples de paramètres 


En situation clinique, on a vu que les valeurs prédictives correspondent aux préoccupations 
des médecins, et elles pourraient sembler les « meilleurs » paramètres d’évaluation. 
Pourtant, en réalité, c’est la sensibilité et la spécificité qui sont le plus souvent utilisées pour 
évaluer les examens complémentaires. La raison en est la suivante : 

la sensibilité d’un examen pour une affection repose sur la définition de la population des 
« malades », et est donc caractéristique de la maladie et du signe. En particulier, elle n’est 
pas susceptible de varier d’un centre à l’autre (d’un service hospitalier spécialisé à une 
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consultation de médecin généraliste, par exemple). Le même raisonnement peut s’appliquer 
à la spécificité, si on considère qu’elle repose aussi sur la définition de la maladie. 

Les valeurs prédictives, au contraire, sont fonctions des proportions respectives de malades 
et de non-malades dans la population (de la prévalence de la maladie). Or ces proportions 
sont dépendantes des centres considérés ; les valeurs prédictives des examens varient donc 
d’un centre à l’autre pour une même maladie, ce qui explique qu’elles sont moins utilisées 
comme paramètre d’évaluation, même si elles sont intéressantes à connaître pour un centre 
donné. 

5.2.4 Choix d’un seuil : courbes ROC 

Lorsqu’un examen fournit des résultats de type continu, il faut déterminer le meilleur seuil 
entre les valeurs pathologiques et les valeurs normales. L’idéal serait d’obtenir une 
sensibilité et une spécificité égales à 1. Ce n’est généralement pas possible, et il faut tenter 
d’obtenir les plus fortes valeurs pour ces deux paramètres, sachant qu’ils varient en sens 
inverse. 

On s’aide pour ce choix d’un outil graphique, la courbe ROC ( Receiver Operating 
Characteristics ). Une courbe ROC est le tracé des valeurs de la sensibilité Se en fonction de 
1-Sp. 
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Cet exemple (tiré du livre de AJ. Yalleron) montre 3 courbes ROC correspondant à 3 
examens différents. 


La courbe A est celle obtenue pour l’exemple précédent de la température et de la grippe. Le 
point de la courbe le plus proche du coin supérieur gauche du carré contenant la courbe (ici 
Se = 0,65, Sp = 0,75, et température = 39?C)) est celui qui permet d’obtenir un bon 
compromis entre sensibilité et spécificité (le coin supérieur gauche correspond à 
Se = Sp = 1). En réalité, on ne choisira pas toujours ce point, car il faut aussi tenir compte 
des coûts des erreurs diagnostiques : il peut par exemple être beaucoup plus grave de ne pas 
détecter une maladie, que de traiter à tort. 


La courbe B correspond à un examen qui n’apporte rien au diagnostic, puisque les variables 
signe et maladie sont ici indépendantes : ~ 1 ” Sp - Pr L S M) 


La courbe C correspond à un bon critère diagnostic pour lequel on peut obtenir 
simultanément des valeurs élevées de sensibilité et de spécificité. 


5.3 - Estimation des paramètres de l’évaluation 

5.3.1 Un échantillon représentatif 
5.3.1. 1 Les données 


Quand on a un échantillon représentatif d’une population, on peut résumer les données de 
l’expérience par un tableau de contingence 2x2, sur lequel sont indiqués les effectifs 
suivants : 

• VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est 
présent {S} ; 

• FP (Faux Positifs) : la maladie est absente {- * } et le signe est présent {5} ; 

• FN (Faux Négatifs) : la maladie est présente {M) et le signe est absent { ^ } ; 

• VN (Vrais Négatifs) : la maladie est absente {* * } et le signe est absent { ^ }. 

Tableau 1 



M 

M 

s 

VP 

FP 

S 

FN 

VN 
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5.3.1. 2 Estimation de la sensibilité et de la spécificité 


Par définition, sensibilité = Se = Pr(S / M) 

On estime cette probabilité conditionnelle par le rapport des effectifs correspondants sur le 
tableau de contingence observé : 

Se « jg 
VP + FN 


Note : On notera de manière identique, suivant un usage établi, les paramètres vrais, qui sont 
des probabilités conditionnelles, et leurs estimations, qui sont des rapports d’effectifs 
observés. 


Spécificité — Sp - PriS 'M) * 


VN 

VN + FP 


Par exemple, calculons les estimateurs de ces paramètres dans le cas où on cherche à 
diagnostiquer un diabète à partir d’un signe de la forme « la glycémie mesurée à jeun est 
supérieure à ... »). Pour deux seuils donnés Si et S2, on obtient les tableaux de contingence 
ci-dessous : 

a. Seuil Si 


Tableau 2 



M 

M 

s 

90 

200 

S 

10 

300 


b. Seuil S2 


Tableau 3 



M 

M 

S 

50 

25 

S 

50 

475 
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On peut estimer les sensibilités et spécificités correspondant aux deux seuils par : 

Sei ~ 90 / 100 = 0,90 ; Spi ~ 300 / 500 = 0,60 
Se 2 ~ 50 / 100 = 0,50 ; Sp 2 ~ 475 / 500 = 0,95. 

On retrouve ici le fait que sensibilité et spécificité varient en sens inverse. 

On constate d’autre part que le seuil Si correspond à une bonne sensibilité (l’examen est 
positif chez 90 % des malades), mais à une spécificité médiocre (l’examen est positif chez 
40 % des « non-malades ») ; il peut donc être utilisé pour un examen de dépistage, le 
diagnostic devant être confirmé ultérieurement par un examen plus spécifique. 

Le seuil S 2 , en revanche, induit un test d’une sensibilité qui pourrait être jugée trop faible 
pour un examen de dépistage. En revanche, sa spécificité peut être acceptable pour un 
examen de confirmation. 

5.3. 1.3 Estimation des valeurs prédictives 

Les estimations s’obtiennent à partir du même tableau des données : 

VPP = Pr{M/ S) « — — 

- VP + FP 


VPN = Pr(M/S) 


VN 

VN + FN 


Par exemple, pour les tableaux de contingence vus ci-dessus, on a : 

VPPi ~ 90 / 290 = 0,31 ; VPNi ~ 300 / 310 = 0,97 
VPP 2 ~ 50 / 75 = 0, 67 ; VPN 2 ~ 475 / 525 = 0,90 

Ces résultats peuvent s’interpréter ainsi : en affirmant le diagnostic sur la base de la 
positivité de l’examen, on se trompe dans 69 % des cas avec le seuil Si et 33 % des cas avec 
le seuil S 2 ; et en éliminant le diagnostic en constatant la négativité de l’examen, on se 
trompe dans 3 % des cas avec le seuil Si et 10 % des cas avec le seuil S 2 . 

5.3.2 Deux échantillons représentatifs 

L’inconvénient du schéma expérimental ci-dessus (un seul échantillon) est que, si la maladie 
est peu fréquente ou rare, il faut constituer un échantillon de très grande taille pour obtenir 
un nombre suffisant de malades. Les non-malades, au contraire, seront « trop » nombreux. 
C’est pourquoi on constituera souvent, en pratique, deux échantillons, un échantillon de 
malades et un échantillon de non-malades. On peut encore résumer les résultats par un 
tableau comme celui du tableau J_, mais ce tableau doit être interprété différemment, les 
proportions respectives des malades et non-malades ne correspondant plus à la réalité : le 
rapport entre le nombre de malades et le nombre de non-malades du tableau dépend des 
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tailles respectives choisies pour les deux échantillons, et n’a aucun lien avec la fréquence de 
la maladie dans la population (la pré valence). 

On peut toujours estimer la sensibilité et la spécificité comme ci-dessus. En effet, la 
sensibilité par exemple est estimée uniquement à partir de VP et FN, donc de la répartition 
des malades entre ceux qui présentent le signe et les autres. Or l’échantillon des malades 
respecte cette répartition. 

En revanche, l’estimation précédente des valeurs prédictives utilisait la répartition entre 
malades et non malades, que le tableau actuel ne représente pas correctement. 

L’estimation des valeurs prédictives reste cependant possible à condition de connaître la 
prévalence de la maladie/MAf). On utilisera les formules introduites section 5.2.2 : 

ypp _ Se X Pr(M) 

Se x Pr{M) + (1 - Sp) x ( 1 - Pr{M) ) 


VPN 


Sp x (1 -Pr(M}) 

(1 - Se) x Pr(M) + Sp x (1 - Pr{M)) 


On remplacera dans ces formules la sensibilité et la spécificité par leurs estimations. 

5.3.1 Un échantillon représentatif 
5.3.1. 1 Les données 


Quand on a un échantillon représentatif d’une population, on peut résumer les données de 
l’expérience par un tableau de contingence 2x2, sur lequel sont indiqués les effectifs 
suivants : 

• VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est 
présent {S} ; 

• FP (Faux Positifs) : la maladie est absente {* * } et le signe est présent {S} ; 

• FN (Faux Négatifs) : la maladie est présente {M) et le signe est absent {■-’}; 

• VN (Vrais Négatifs) : la maladie est absente {* * } et le signe est absent { ^ }. 

Tableau 1 



M 

M 

s 

VP 

FP 

S 

FN 

VN 
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5.3.1. 2 Estimation de la sensibilité et de la spécificité 


Par définition, sensibilité = Se = Pr(S / M) 

On estime cette probabilité conditionnelle par le rapport des effectifs correspondants sur le 
tableau de contingence observé : 

Se « jg 
VP + FN 


Note : On notera de manière identique, suivant un usage établi, les paramètres vrais, qui sont 
des probabilités conditionnelles, et leurs estimations, qui sont des rapports d’effectifs 
observés. 


Spécificité — Sp - PriS 'M) * 


VN 

VN + FP 


Par exemple, calculons les estimateurs de ces paramètres dans le cas où on cherche à 
diagnostiquer un diabète à partir d’un signe de la forme « la glycémie mesurée à jeun est 
supérieure à ... »). Pour deux seuils donnés Si et S2, on obtient les tableaux de contingence 
ci-dessous : 

a. Seuil Si 


Tableau 2 



M 

M 

s 

90 

200 

S 

10 

300 


b. Seuil S2 


Tableau 3 



M 

M 

S 

50 

25 

S 

50 

475 
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5.3. 1.3 Estimation des valeurs prédictives 

Les estimations s’obtiennent à partir du même tableau des données : 

y pp = p r (M/S)f* W 

- VP + pp 

VPN = Pr(M/S ) » ^ 

' VN + FN 

Par exemple, pour les tableaux de contingence vus ci-dessus, on a : 

VPPi ~ 90 / 290 = 0,3 1 ; VPNi ~ 300 / 3 10 = 0,97 
VPP 2 ~ 50 / 75 = 0, 67 ; VPN 2 ~ 475 / 525 = 0,90 

Ces résultats peuvent s’interpréter ainsi : en affirmant le diagnostic sur la base de la 
positivité de l’examen, on se trompe dans 69 % des cas avec le seuil Si et 33 % des cas avec 
le seuil S 2 ; et en éliminant le diagnostic en constatant la négativité de l’examen, on se 
trompe dans 3 % des cas avec le seuil Si et 10 % des cas avec le seuil S 2 . 

5.3.2 Deux échantillons représentatifs 

L’inconvénient du schéma expérimental ci-dessus (un seul échantillon) est que, si la maladie 
est peu fréquente ou rare, il faut constituer un échantillon de très grande taille pour obtenir 
un nombre suffisant de malades. Les non-malades, au contraire, seront « trop » nombreux. 
C’est pourquoi on constituera souvent, en pratique, deux échantillons, un échantillon de 
malades et un échantillon de non-malades. 

On peut encore résumer les résultats par un tableau comme celui du tableau 1, mais ce 
tableau doit être interprété différemment, les proportions respectives des malades et non- 
malades ne correspondant plus à la réalité : le rapport entre le nombre de malades et le 
nombre de non-malades du tableau dépend des tailles respectives choisies pour les deux 
échantillons, et n’a aucun lien avec la fréquence de la maladie dans la population (la 
pré valence). 

On peut toujours estimer la sensibilité et la spécificité comme ci-dessus. En effet, la 
sensibilité par exemple est estimée uniquement à partir de VP et FN, donc de la répartition 
des malades entre ceux qui présentent le signe et les autres. Or l’échantillon des malades 
respecte cette répartition. 

En revanche, l’estimation précédente des valeurs prédictives utilisait la répartition entre 
malades et non malades, que le tableau actuel ne représente pas correctement. 

L’estimation des valeurs prédictives reste cependant possible à condition de connaître la 
prévalence de la maladiePr(Af). On utilisera les formules introduites section 5.2.2 : 


VPP = 


Se x Pr(M) 


Se x Pr (M) + ( 1 - Sp) x ( 1 - Pr (M) ) 


VPN = 


Sp x (\-Pr{M)) 


(1 - Se) x Pr(M) + Sp x (1 - Pr(M)) 


On remplacera dans ces formules la sensibilité et la spécificité par leurs estimations. 
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Chapitre 6 : Variables aléatoires 


6.1 - Définition d’une variable aléatoire 

Considérons un ensemble fondamental E correspondant à une certaine expérience. Les 
éléments de E, résultats possibles de l’expérience, ne sont généralement pas des nombres. Il 
est cependant utile de faire correspondre un nombre à chaque élément de E , en vue de faire 
ensuite des calculs. Pour un jet de dé, il semble naturel de faire correspondre à la face 
obtenue par le jet, le nombre de points qu’elle porte, mais ce n’est pas une obligation. Si on 
jette 2 dés, on s’intéressera par exemple à la somme des points obtenus. Pour une carte à 
jouer, il faut convenir d’une valeur pour chaque carte. 

Une variable aléatoire X, sur un ensemble fondamental E, est une application de E dans 91 : à 
tout résultat possible de l’expérience (à tout élément de E ), la variable aléatoire X fait 
correspondre un nombre. 

Lorsque E est fini ou infini dénombrable, toute application de E dans 91 est une variable 
aléatoire. 

Lorsque E est non dénombrable, il existe certaines applications de E dans 91 qui ne sont pas 
des variables aléatoires. En effet, la définition rigoureuse d’une variable aléatoire X impose 
que tout intervalle de 91 soit l’image d’un événement de E par l’application X. Cette 
condition est vérifiée pour toute application X si E est fini ou dénombrable, puisque toute 
partie de E est un événement. Ce n’est plus vrai si E est non dénombrable. Heureusement, 
les applications choisies naturellement sont des variables aléatoires. 

On parle de variable aléatoire discrète lorsque la variable est une application de E dans un 
sous-ensemble discret de9l, le plus souvent N ou une partie de N. On parle sinon de variable 
aléatoire continue. 

Pour un nombre réel a donné, l’événement constitué de tous les résultats é, d’expérience tels 
que = a est noté [X(E) = a], ou, en abrégé, X = a. 

Pour deux nombres réels a et b (a < b), l’événement constitué de tous les résultats ç 
d’expérience tels que a < X(E) < be st noté [a < X{t) < b] ou, en abrégé, a<X<b. 

Si X et Y sont des variables aléatoires définies sur le même ensemble fondamental E, et 
si k est une constante, on peut montrer que les fonctions suivantes sont aussi des variables 
aléatoires : 

(X + Y)(0 = X(0 + Y(0 (X + km =X(0 + k 
(kX)(ô = kX(0 (XY)(0 = X($ Y(Ç) 

pour tout élément c de E. 


Pi 
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6.3 Variables infinies dénombrables (hors programme) 


Tout ce qui u etc vu prcccdciumcnt duns le eus ou E est fini ( E — S 2 -, . Sn }) se 

généralise (nous ne verrons pas les démonstrations) au cas où E est infini dénombrable ; on 
aura par exemple 


ùjf = £(Vi = 2 x Pi 

i= : 

La somme converge à l’infini vers E(X), toutes les autres propriétés sont conservées, les 
sommes devenant des séries. 

6.4 Variables aléatoires continues 

La généralisation au continu est délicate et même difficile si on ne dispose pas d’outils 
mathématiques hors du champ de ce cours. 

Nous nous contenterons de procéder par analogie avec le cas discret. 

Une variable aléatoire X dont l’ensemble image X(E) est un intervalle de 91 est une variable 
aléatoire continue (continue par opposition à discrète, cf supra). 

Rappelons que, par définition d’une variable aléatoire, a -^—° est un événement de E dont 
la probabilité est bien définie. 

On définit la loi de probabilité de X, ou distribution de X, à l’aide d’une fonction /(v), 
appelée densité de probabilité de X, telle que 

{ b 

\ f(_x)dx = Pr(a<X<b ) 


Remarques 


1 . Si/est donnée, la probabilité rr ' a - ^ - ■' est la surface sous la courbe entre a et b 



2. Le passage du discret au continu transforme les sommes £ en 

JP 

intégrales J et pi en f(x)dx. 

Ainsi, soit X une variable aléatoire discrète et pi sa distribution 


Nursunity 


Page 37 


Prix i. <X <jc„) 

' ri fi " 




r b 


3. La formule 


i — fl. 


est analogue à 


Pr(«<X<à) = | 

- a 


En utilisant cette analogie, on admettra les définitions suivantes pour une variable 
aléatoire X, continue, de distribution f(x) : 


1. 

2. 

3. 

4. 

5. 

6. 

7. 


/l .v) > 0 ( ana i 0 g Ue à Pi > ^ ) 

f A*)àx =1 2>i = 1 

K (analogue à 1 ) 

Pjf = F{X) = | xf(x')dx 

- (analogue à ' ) 

2 r 2 

<J X = vor(Jï) = | [_jc — MjO 

w (analogue à i 

2 _ 2 2 2 

a j = vor(.Y) = | .tVl-v) 

(analogue à * 

a (X) - a ^ - >,/v ? £ï y (X) 

Z* 


Z^ 


hr>Vi 




F(x) = Pr(jr<x) = | yriyi 


- 


(analogue à ) 


8. 


Les propriétés de la fonction de répartition données section 6.2.6 sont conservées : 
fonction monotone croissante, partant de 0 pour v— »-oo et atteignant 1 pour jc— H- oo. 

Pr(a<X<b) = f Ax)dx = F(b)-F(a ) 


- a 
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Fj((x) * fx{x) 



Cet exemple montre la densité de probabilité et la fonction de répartition d’une certaine 
variable aléatoire continue. La probabilité de l’intervalle [a b] est la surface sous la courbe 
de densité limitée par cet intervalle. C’est aussi la différence des hauteurs F(b)-F(a) si on 
utilise la fonction de répartition. Contrairement au cas des variables discrètes, la fonction de 
répartition est ici continue. Pour résumer l’analogie entre le cas discret et le cas continu, un 
point du domaine discret correspond à un intervalle dans le cas continu, la somme discrète 
correspond à l’intégrale. 

6.5 Extension de la notion de variable aléatoire 

Une variable aléatoire, telle qu’elle est définie dans ce chapitre, ne peut prendre que des 
valeurs numériques. Il est pourtant souvent pratique de s’intéresser directement aux résultats 
d’une expérience, qu’ils soient numériques ou non, c’est à dire d’éviter le codage numérique 
de ces résultats. Par abus de langage, dans la suite du cours, on pourra parler de variables 
aléatoires alors qu’il s’agit de résultats d’expérience. 

Dans ce contexte, la classification antérieure des variables (discrètes ou continues) doit être 
étendue : 

Variables quantitatives : Variables dont les valeurs sont numériques. C’est l’unique 
possibilité dans le cas de variables aléatoires au sens strict. 

On distingue deux types de variables quantitatives : 

• variables discrètes, dont les valeurs sont discrètes, en général des nombres 
entiers. Exemple : nombre d’étudiants dans un amphi. 

• variables continues, pour lesquelles toutes les valeurs sont possibles, au moins 
sur un intervalle. Exemples : le poids ou la taille. 

Variables qualitatives : Variables dont les valeurs ne sont pas numériques. 

On en distingue deux types : 

• variables ordinales, dont les valeurs peuvent être ordonnées. Exemple : 
intensité d’une douleur qui peut aller de absente à très intense. 

• variables catégorielles ou nominales, dont les valeurs ne peuvent pas être 
ordonnées. Exemple : couleur des yeux. 
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Chapitre 7 : Exemples de distributions 


7.1 - Lois discrètes 

Les lois décrites ici ne concernent que des variables dont les valeurs sont des nombres 
entiers. 

7.1.1 Loi de Bernoulli 

On considère une expérience n’ayant que deux résultats possibles, par exemple succès et 
échec (ou présence et absence d’une certaine caractéristique). On introduit la variable 
aléatoire X qui associe la valeur 0 à l’échec (ou à l’absence de la caractéristique) et la valeur 
1 au succès (ou à la présence de la caractéristique). Cette variable aléatoire est appelée 
variable de Bernoulli. 

Distribution de X 

Appelons n la probabilité de l'événement succès : 

Pr({succès}) = Pr(X = 1) = n 
d'où 

Pr({échec}) = Pr(X = 0) = 1 - n 

Espérance de X 

\i x = E(X) = Y j X j Pr(X= Xj) = 1 x Pr{X= 1) + 0 x Pr(X= 0} = Il 


Variance de X 


T 


T 


üj = var(X) = E[(X-\i x )] 



G x = [1 xPr(X= l) + 0 xPr(X= 0)] -IT 


g x = n-ir = n(i-m 

7.1.2 Loi binomiale 

Définition 

Soient les épreuves répétées et indépendantes d'une même expérience de Bernoulli. 
Chaque expérience n'a que deux résultats possibles : succès ou échec. Comme 
précédemment, appelons n la probabilité de l'événement élémentaire succès. A 
cette expérience multiple on associe une variable aléatoire X qui mesure le nombre 
de succès obtenus. 


Nursunity 


Page 40 


Distribution de X 


On montre aisément que la probabilité d'avoir k succès lors de n épreuves répétées 
est 


n 


rf( i - id 


P\X — k pour h essais'! — - 

*10-*)! 

Rappel 

n! = lx2x___xrt p 0ur tout n entier positif 
01 = 1 par définition 




Remarques 


La probabilité de n'avoir aucun succès au cours de n épreuves (* = 0) est (1- 
n) n ; la probabilité d'avoir au moins un succès est donc 1 - (1-n)' 1 (un succès ou 
plus) 


n 


b. est souvent noté 



ou 


jl 


n 


( ri] 

I 

Les ^ s'appellent coefficients du binôme. 


En effet ils interviennent dans le développement du binôme selon la formule 


(a J tbf= £ Q a ~ V 


^ = o 


Exercice : 


(a + bŸ = a+4a : 'b + 6û 2 b 2 + 4üb"+b~ 


utiliser cette formule pour vérifier que 
c. En appliquant la formule du binôme précédente on retrouve que la somme 
des probabilités pour toutes les valeurs de X est égale à 1 : 




T Hrfïi-m 

<i-i w 
* = G K 


,ÏT i: = [n+(i - rnf = i w = î 


Exemples 


1. On jette 6 fois une pièce bien équilibrée ; on suppose que face est un succès. 
On a donc 
fl = 1/2 et n = 6 
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a. Probabilité que l'on ait exactement 2 faces 


7 j ,,, . , - , 6! rn 2 /T, 4 Ix2x3x4x5x6 1 1 

Pr{2 faces parmi 6 jets] = - 1 - - 1 = ■ - ■ — 

214! y2s '-2' Ix2xlx2x3x4 4 16 


5x6 

Pr ( 2 faces parmi 6 jets i - 

2 x4 x 16 


15 


4 x 16 


15 

64 


b. Probabilité d'avoir 4 faces ou plus (au moins 4 faces) 

C'est aussi la probabilité d'avoir au plus 2 piles (0, 1 ou 2 piles) 


p _ - Pr { 4 faces) - 


6! { IV flŸ Ix2x3x4x5x6 1 1 


2 ! 4! 


W V2 


Ix2xlx2x3x4 16 4 


15 

64 


p^ - Pr{5 faces) - 


6! AV _ 1 
1 ! 5! W 2 


1x2x3 x4x5x6 1 1 _ 6 

Ix2x3x4x5 32 2 64 


p t = Pr(6 faces) = |-(i 


r 


0 



64 


P<a * moins 4 faces) = p 4 +p 5 +p 6 = ^ + A + ^ = ^ 

2. On jette 7 fois un dé équilibré et on considère que tirer 5 ou 6 est un succès. 
Calculer 

a. la probabilité pour qu'on ait 3 succès exactement 


Pr( succès) = JV({5,6» =1=1 

6 3 


Pr { 3 succès) = 



560 


3141 ^3^ '-V 21S7 

b. la probabilité de n'avoir aucun succès 


Fr (aucun succès) = ( 1 - IT) = fj|j = 


Propriétés 

La fonction de probabilité Pr(X= k) dépend des 2 paramètres (ou constantes) n et n. 
C'est une distribution discrète qui prend les valeurs suivantes : 


k 

0 

1 

2 


n 

Pr(X= k) 

(i-n) n 

(")(i-n) H_1 n 

Qa-n}"" 2 !] 2 


rr 
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On dit que X est distribuée selon une loi binomiale B (n, fl). On peut montrer que 


Distribution binomiale B(n, fl) 

Espérance 

p = «n 

Variance 

ü 2 = nU( 1 - n> 

Ecart-type 

a = *JnTI( 1 - n) 


7.1.3 Loi de Poisson 


La loi de Poisson (due à Siméon Denis Poisson en 1837) est la loi du nombre d’événements 
observé pendant une période de temps donnée dans le cas où 

ces événements sont indépendants et faiblement probables. Elle peut s’appliquer au 
nombre d’accidents, à l’apparition d’anomalies diverses, à la gestion des files d’attentes, au 
nombre de colonies bactériennes dans une boîte de Pétri, etc. 

Définition 


Soit X la variable aléatoire représentant le nombre d'apparitions indépendantes d'un 
événement faiblement probable dans une population infinie. La probabilité 
d'avoir k apparitions de l'événement est 


. n K 

Pr(X = ïc) = i ! ‘- 

là. 


Cette loi dépend d'un paramètre X, nombre réel strictement positif. 

Les nombres k possibles sont toutes les valeurs entières 0, 1, 2, etc. Cependant, 
lorsque k est suffisamment grand, la probabilité correspondante devient 
extrêmement faible. 


Propriétés 


• On peut montrer que 


Loi de Poisson 

Espérance 

\x = À. 

Variance 

il n 

a = a. 

Ecart-type 

q 

II 

Ên 
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2 jÿ “ e 

• La démonstration utilise le fait que * - : 

• Si deux variables aléatoires indépendantes Xi et Xi sont distribuées selon des 
lois de Poisson de paramètres Ai et Xi , alors la variable X 1 +X 2 est distribuée 
selon une loi de Poisson de paramètre A 1 +A 2 . 

Remarques 

Si on connaît la probabilité de n'observer aucun événement Pr{X= 0) = p : 


D'après la formule, 

On en déduit : 

}. — -lnp 

, 1 

PriX = 1) = g ' = p). 


„ 0 
“A/l. 

P ~ & — 

0! 


- g 


—A 


Pr(X - 2) = e X — = PriX = 1)- 


= 3) = g = PrÇX = 2)- 
31 3 


« 

PriX = k) = Pr(X = k- 1 )^ 


On peut ainsi calculer facilement de proche en proche les probabilités des 
diverses valeurs de k. 

Lien avec la loi binomiale 

Si une variable aléatoire X est distribuée selon une loi binomiale B (n, 11), on montre 
que si n est petit (en pratique inférieur à 0,1) et n assez grand (supérieur à 50), la loi 
binomiale peut être approximée par une loi de Poisson de paramètre À=nn. 

Les calculs sont plus simples avec la loi de Poisson qu'avec la binomiale. 

Notons que puisque X est distribuée selon une loi binomiale, ses valeurs possibles ne 
peuvent dépasser n, alors que l'approximation par la loi de Poisson autorise des 
valeurs supérieures. Cependant le calcul fournit des probabilités très faibles pour ces 
valeurs aberrantes. 
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7.2 - Lois continues 

7.2.1 - Loi normale 

7.2. 1. 1 Définition 

La distribution normale, ou de Laplace-Gauss, appelée aussi gaussienne, est une distribution 
continue qui dépend de deux paramètres p et o. On la note N(p, o 2 ). Le paramètre p peut être 
quelconque mais a est positif. Cette distribution est définie par : 


_1 (ï - [l} 

j< T maant 

f(x\ a) = — — e 
( j 72 71 

C’est une des lois les plus importantes, sinon la plus importante comme vous le verrez à 
l’occasion du théorème central limite. 

7. 2. 1.2 Propriétés 

Allure de la courbe 

La loi normale, notée N(p, a 2 ), est symétrique par rapport à la droite d'abscisse p. 
Exemples : 



Figure 2 : N(p, 1) pour les valeurs de p -2 ; 0 et 2 
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1,4 



Figure 3 : N(0, a 2 ) pour les valeurs de o 0,3 ; 1 et 2 


Caractéristiques 


Loi normale N(p, o 2 ) 

Espérance 

P 

Variance 

a 2 

Ecart-type 

a 


La distribution normale centrée réduite 

On dit que la distribution est centrée si son espérance p est nulle ; elle est dite 
réduite si sa variance o 2 (et son écart-type a) est égale à 1. La distribution normale 
centrée réduite N(0, 1) est donc définie par la formule 

- 

Kr, 0 , 1 ) = -Le 2 ' 

J 2tl 
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Figure 4 : loi normale centrée réduite N(0, 1) 

Les probabilités correspondant aux divers intervalles ont été calculées et regroupées 
dans une table numérique. Ainsi la table AJ. (en fin de polycopié) permet, à partir 
d'une probabilité a donnée, de trouver les bornes -u a , +u a d'un intervalle symétrique 
autour de 0, tel que 

Pr{t É [-z^i+zj) - a. 

ou encore, à partir de u a , de trouver a. 

D'où par exemple : 

Pr(t e [~z a ;+zJ) = 1 - a 

Pr{i>z u ) = Prit <-z a ) = a/ 2 

On observe ainsi que environ 68 % de la surface est comprise entre (-1 et +1), 95 % 
entre (-2 et +2) et 99 % entre (-3 et +3) (la table AJ. ne permet pas de trouver des 
valeurs aussi précises que celles de la figure 4). 

Transformation d'une loi normale quelconque en loi normale centrée réduite 

Soit une variable X distribuée selon une loi normale d'espérance p. et d'écart-type a. 

, = *=m 

Alors la variable 0 est distribuée selon une loi normale centrée réduite. 


Les probabilités obtenues pour la loi centrée réduite permettent de calculer les 
probabilités pour une loi normale quelconque, à l'aide de cette transformation : 

CT 

Soit par exemple à calculer ° n a - ^ ° ' . Par la transformation, on 

a Pria <X < b) = Pr{c<t<d ) avec 


e — 


_ fl-M- 


à = 


_ t-\i 


u 


et 


CT 
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La probabilité cherchée, sur la variable X, revient donc à lire sur la table de la loi 
centrée réduite (variable t), la probabilité de se trouver entre c et d. 

On remarque en particulier que = Prfr- 2o <X< p + 2 <j)* 0,95 

Approximation de la distribution binomiale par la loi normale 

Lorsque n est grand, et que n et 1-n ne sont pas trop proches de 0 (en pratique 

si et ' ■“■“■), alors on constate que la distribution binomiale tend vers la 

distribution normale de moyenne nU et de variancenn(l-n) ; plus précisément, pour 
une variable K distribuée selon une loi binomiale B (n, n) et une variable ^distribuée 
selon une loi normale N(p = nU, a 2 = nll(l-n)), on a : 

Pr(K = k) = Pr{k) = Pr(k- 0,5 <K< jfc+0,5) *Pr(k-QJ5 <X<k+0,5) 

On choisit l'artifice de représenter graphiquement Pr(k) par un rectangle dont la 
base est [k - 0,5, k + 0,5] et la surface est Pr(k) pour comparer la loi discrète Pr(k) et 
la loi normale continue. 



Approximation de la loi de Poisson par la loi normale 

Lorsque son paramètre À. est grand (en pratique supérieur à 25), une loi de Poisson 
peut être approchée par une loi normale d'espérance X et de variance X. 

Le principe est analogue à celui utilisé pour l'approximation de la loi binomiale par la 
loi normale. 
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7.2 - Lois continues 


7.2.2 - Loi du x 2 (chi-2) 

7.2.2. 1 Définition 

C’est une loi dérivée de la loi normale, très importante pour ses applications en statistiques 
comme nous le reverrons dans les tests. 

Soient Xi, X„ des variables aléatoires indépendantes, chacune étant distribuée selon une 
loi normale centrée réduite : 

Vj, Xj~N(0, 1) 

S = JC +X; + +JC 

La distribution de " ■ 2 n (somme des carrés des Xi) est appelée loi de 

X 2 à n degrés de liberté (en abrégé d. d. 1.), que l’on note yj(n) où n est le nombre de d. d. 1., 
seul paramètre de la loi. 


Loi du x 2 (n) 

Espérance 

n 

Variance 

2 n 

Ecart-type 

«fin 


7. 2.2.2 Propriétés 

a. Allure de la distribution de x 2 (n) P our différentes valeurs de n 
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b. Pour n = 1, la courbe décroît de +°° vers zéro de façon monotone ; pour n- 2, la 
courbe décroît de façon monotone de 0,5 à zéro ; pour n > 2, la courbe part de 0, a 
son maximum pour x = n -2, puis redescend vers zéro. 

c. Propriété asymptotique 

La loi d'une variable X suivant un x 2 (n) tend vers une loi normale lorsque '■ ~~ r . On 

a donc, après avoir centré et réduit cette variable : 

^ ~ N(0, I) 

-jln 


NB : Dans la pratique, on utilise plutôt la variable 1 ~ ’&X- ~ - dont on montre 

qu'elle est à peu près distribuée selon une loi normale centrée réduite dès 
que n > 30. 

d. Tables 

De même que pour la loi normale centrée réduite, une table existe pour la loi du 
X 2 (voir en fin de polycopié, table A.4 ). Cette table indique pour une probabilité a 

donnée, et un degré de liberté/? donné, la valeur K„, a telle que " • a . 


7.2 - Lois continues 

7.2.3 Loi de Student (hors programme) 

Il s’agit encore d’une loi dérivée de la loi normale, très utilisée dans les tests statistiques. On 
considère une première variable aléatoire X, distribuée selon une loi normale centrée réduite, 
puis une seconde variable Y, indépendante de X, distribuée selon un x 2 à n degrés de liberté. 

Z = vÆ — 

Alors la variable aléatoire est distribuée selon une loi de Student à n degrés de 

liberté, notée t (ri). 


Loi de Student t(n) 

Espérance 

0 


n 

Variance 

n - 2 


/ n 

Ecart-type 

- 2 
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La courbe correspondante est symétrique autour de 0, et son allure est proche de celle de la 
loi normale. 


n 

Cette loi est centrée, mais non réduite : la variance, n ~ - , est supérieure à 1 . 

Lorsque n croît, en pratique pour n > 30, la variance peut être prise égale à 1 , et la 
distribution assimilée à celle d’une loi normale centrée réduite. 

7.2.4 Loi exponentielle (hors programme) 

Cette loi décrit par exemple le processus de mortalité dans le cas où le « risque instantané » 
de décès est constant. La loi correspondante est : 

/T.v) - )jS ''" 1 avec L > 0 et x> 0 
où v est la durée de vie. 


Loi exponentielle 

Espérance 

1 //, 

Variance 

1/Â 2 

Ecart-type 

1/Â 


7.3 - Application de la Loi de Poisson à l’interprétation d’un 
risque sanitaire possible qui n’a pas encore été observé 

7.3.1 Introduction 

Dans de nombreux cas, on s’intéresse à un risque sanitaire a priori faible et on constate, 
après n observations, que l’événement redouté n’a jamais eu lieu. Par exemple, au bout de 
10 000 prescriptions d’un médicament nouveau, on n’a pas observé un seul effet indésirable. 
Ou un chirurgien examinant le suivi de ses 50 dernières interventions avec une technique 
très innovante a la satisfaction de ne pas avoir eu un seul échec. Ces observations semblent 
plutôt rassurantes, mais que peut-on en tirer pour apprécier le risque encouru au bout de 
1 000 000 de ces prescriptions, ou au bout de 100 000 interventions avec cette technique 
chirurgicale ? 
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C’est un problème qui se pose particulièrement en pharmacovigilance : on admet dans de 
nombreuses classes thérapeutiques qu’un médicament qui tuerait un malade sur 1 000 000 
de prescriptions devrait être retiré du marché. Le biostatisticien posera donc le problème 
suivant : sachant qu’après 10 000 prescriptions aucun décès causé par le médicament n’a été 
observé, quel nombre de décès peut cependant être redouté sur 1 000 000 de prescriptions 
qui soit compatible avec ce qu’on sait aujourd’hui (0 décès sur 10 000). Si ce nombre 
dépasse 1 (on verra dans l’application numérique traitée plus loin qu’il le dépasse de loin), la 
plus grande vigilance s’imposera ! 

Le raisonnement qui suit combine le calcul des probabilités (loi de Poisson, approximation 
d’une loi binomiale par une loi de Poisson), et « l’inférence statistique ». L ’ inférence 
statistique est le mode de raisonnement qui permet à partir d’une observation (ici : 0 effet 
indésirable sur 10 000) de tirer des conclusions générales (ici : ce qui pourrait arriver sur 
1 000 000 ou 10 000 000 de prescriptions). Les applications principales de l’inférence 
concernent l ’ estimation statistique et les tests statistiques ; elles sont traitées en détail dans 
les chapitres suivants du polycopié. Mais l’application détaillée ci-après initie bien à ce 
mode de raisonnement. 

7.3.2 Le problème « direct » 

Dans le problème direct on suppose que le risque d’effet indésirable chez un patient donné 
est connu, et on veut calculer la probabilité d’observer l’événement « 0 effet indésirable au 
bout des n premières observations ». 

• Soit n le risque individuel (= la probabilité) d'un effet indésirable après traitement. 

• Soit n le nombre de patients traités. 

Alors le nombre X de patients présentant un effet indésirable suit une loi binomiale de 
moyenne X = nll. Si II est très petit, n très grand et «n assez petit (ces hypothèses seront 
toujours faites dans ces problèmes de risque sanitaire) la loi de X peut être approximée par 
une loi de Poisson de paramètre X. En particulier, Pr(X = 0) = e x et Pr(X = 1) = Xe~\ 

Remarque : on sait calculer exactement P r(X = 0) = (1- IJ) n en exprimant que chacune 
des n prescriptions doit être sans effet indésirable (probabilité 1- TI). Quand IJ est très petit, 
et nll pas trop grand on montre que cette valeur est très proche de e'" n . 

7.3.3 Problème inverse 

C’est le problème qui se pose en pratique : On observe l’événement « x = zéro effet adverse 
sur n patients traités ». Que peut-on alors dire de II ? (ou de X car n = X/n). On approchera la 
distribution de X par la loi de Poisson de paramètre X = «IL 

Pour répondre, la méthode utilisée est d’écarter les valeurs de n pour lesquelles notre 

observation (x = 0 après «répétitions) serait « invraisemblable ». 

Mais que veut dire invraisemblable ? Pour fixer les idées, imaginons que l’on ait observé 
x=0 parmi n = 10 000 traitements. 
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• Si n avait été 1/1000, la probabilité de l'événement observé (« x = 0 sur 10 000 ») 
aurait été e 10 = 0,000045 = 4,5/100 000. (car X = nH = 10). Cette probabilité est 
infime : tout le monde sera d'accord pour dire qu'il aurait été très invraisemblable 
de n'avoir aucun effet indésirable si le risque individuel inconnu était de n = 1/1000. 

• Si n avait été 1/10 000, la probabilité de l'événement observé aurait été e 1 = 0,37 = 
37% (car X = nU = 1). La probabilité 0,37 est « forte ». Tout le monde sera d'accord 
pour dire qu'il n'était pas invraisemblable de n'observer aucun effet indésirable si le 
risque individuel était n = 1/10 000. 

e" 10 est une « petite » probabilité - l’événement est invraisemblable ; e 1 est une « grande » 
probabilité - l’événement n’est pas invraisemblable. Pour préciser quantitativement ce que 
veut dire « invraisemblable » il faut choisir un seuil en dessous duquel on va déclarer qu’une 
probabilité est « petite » : la valeur conventionnelle retenue universellement est 5% . La 
traduction de ce choix est qu’on décide de ne pas trouver « invraisemblable » un événement 
ayant 10 chances sur 100 de se produire (car 10% > 5%), mais de trouver 
« invraisemblable » un événement ayant 1 chance sur 100 de se produire. 

Ce choix permet d’apporter une solution au problème posé : l’observation « x = 0 sur 
10000 » est invraisemblable si sa probabilité est inférieure à 5%, c’est-à-dire si exp(- 
nll) < 5%. Toutes les valeurs de n supérieures à la solution de cette inégalité seront 
réputées « invraisemblables » ; et les autres seront réputées « vraisemblables ». 

La résolution de l’inéquation donne II > Iliim = ln(0,05)/n = 3 !n. 


Résultat 

Quand on observe 0 effet indésirable parmi n répétitions, ceci est compatible avec un risque individuel 
compris entre 0 et 3/n. En revanche, les risques supérieurs à 3/n sont jugés invraisemblables. 


Comme la médecine veille à limiter le plus possible le risque encouru par les malades à 
l’occasion d’un traitement, la démarche de « précaution » est, lorsqu’on observe 0 effets 
indésirables sur n traitements, de conclure que le risque réel du traitement peut aller jusqu’à 
3 In. Il peut bien sûr être plus petit : l’avenir le dira, et l’estimation du risque se précisera au 
fur et à mesure que de plus en plus de patients auront été traités. Mais en attendant, pour se 
préparer « au pire », on doit considérer la valeur maximum non invraisemblable, à savoir 
3/n. 


7.3.4 Application numérique 

On traite 10 000 patients sans observer d’événement indésirable. Evaluer la limite 
supérieure du nombre d ’ événements indésirables qu ’on peut redouter sur 1 000 000 de 
prescriptions, compatibles avec cette observation préliminaire. 

Par application du résultat, l’observation « x = 0 sur 10,000 » est compatible avec un risque 
individuel maximum de 3/10000. 

Sur 1 000 000 de prescriptions, on aura donc au maximum un nombre de 
3/10 000 x 1 000 000 = 300 effets indésirables. 
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Ainsi, un laboratoire pharmaceutique ayant mis sur le marché une nouvelle molécule ne peut 
en rien être « rassuré » sur le risque associé à celle-ci après avoir constaté qu’il n’y avait 
aucun décès sur les 10 000 premières prescriptions. 

Cette observation reste compatible avec un risque de 3/10000, et 300 décès sur le 1 000 000 
de prescriptions suivant, ce qui serait une catastrophe sanitaire. 

Ceci illustre également la difficulté de garantir un médicament « sans risque » lorsqu’il n’a 
été testé que chez quelques milliers de patients afin de voir s’il est efficace (voir 
chapitre J_5 sur la méthodologie des études épidémiologiques et les essais thérapeutiques), 
comme c’est généralement le cas au moment de la demande d’autorisation de mise sur le 
marché. 

7.3.5 Remarque 

Le calcul menant au résultat encadré repose sur un raisonnement subtil (qui sera retrouvé 
dans les chapitres relatifs aux tests statistiques). 

Chacun doit comprendre dans l’exemple traité que le résultat trouvé ne signifie pas qu’il y a 
5 chances sur 100 pour que le risque sanitaire soit de 3/10 000 (cette interprétation fausse du 
« 3 » est très majoritairement faite, y compris par de nombreux professionnels). Ce que le 
calcul indique, c’est que si le risque de mort était de 3/10000 (il ne l’est peut-être pas), il y 
aurait 5 chances sur 100 d’observer 0 décès sur 10 000 prescriptions, co mm e on l’a fait. En 
reprenant les notations des probabilités conditionnelles, il ne faut pas confondre Pr(A / B) et 
Pr(B / A), avec ici A = (À, = 3 } et B = {X = 0}. 
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Chapitre 8 - Statistiques descriptives 


Les statistiques descriptives visent à représenter des données dont on veut connaître les 
principales caractéristiques quantifiant leur variabilité. 

8.1 Rappels et compléments 

On suppose que l’on s’intéresse à une caractéristique particulière observable chez des 
individus issus d’une population ; cette caractéristique sera appelée variable ; si cette 
caractéristique peut varier entre les individus, sans pouvoir l’anticiper, on 
l’appellera variable aléatoire. Le dispositif permettant d’obtenir une valeur de la variable 
est l’expérience aléatoire. Cette définition imagée est compatible avec la définition du 
chapitre 6. 

Rappel 

Il existe deux grands groupes de variables : 

a. Les variables quantitatives qui sont des variables ordonnées, productives de 
nombres. Exemples : nombre d’enfants dans une famille, glycémie, taille d’un 
individu, nombre de colonies bactériennes dans un milieu de culture. 

Parmi ces variables quantitatives, certaines prennent un continuum de valeurs 
(entre deux valeurs possibles, il existe toujours une troisième valeur possible) ; 
ces variables sont dites continues. D’autres ne prennent que des valeurs 
discontinues ; elles sont dites discrètes, finies ou non. 

b. Les variables qualitatives qui produisent des valeurs non numériques. 
Exemples : sexe, couleur des cheveux, appartenance au groupe des fumeurs ou 
des non fumeurs, présence ou absence d’une maladie. 

Les valeurs peuvent être ordonnées ; on parle alors de variable 
qualitative ordinale. Exemple : intensité d’une douleur (faible, moyenne, 
forte). 

Si les valeurs ne peuvent pas être ordonnées, il s’agit d’une 
variable catégorielle (ou nominale). 

Remarque 

L’individu évoqué ci-dessus, sur lequel on observe les caractéristiques d’intérêt, la 
variable, n’est pas nécessairement un individu physique. C’est l’entité sur laquelle 
s’opère l’observation de la variable d’intérêt. Exemples : famille, colonies 
bactériennes. 

Définition 

L’entité sur laquelle peut s’observer la variable aléatoire s’appelle l’unité statistique. 
Connaître le phénomène mettant en jeu cette variable, ou connaître cette variable, 
c’est connaître la probabilité pour qu’un individu tiré au hasard dans la population 
présente telle valeur de la variable. On peut apprécier la probabilité d’un événement 
aléatoire grâce à l’interprétation suivante de la notion de probabilité. Cette 
interprétation est cohérente avec les cours précédents. 

On interprétera la probabilité d’un événement aléatoire co mm e la valeur limite de la 
fréquence avec laquelle l’événement se réalise au cours d’un nombre croissant de 
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répétitions de l’expérience. Autrement dit comme la valeur limite du rapport du 
nombre de fois où l’événement s’est réalisé et du nombre de répétitions de 
l’expérience. 

Remarques 


• Ce qui précède peut être vu comme une interprétation de la notion de 
probabilité (voire comme une définition). 

• En dépit de cette interprétation, la probabilité d’un événement aléatoire reste 

o une fiction 
o du domaine théorique. 


Mais cette interprétation a deux conséquences : 

o pour approcher une probabilité on est amené à répéter une expérience, 
o les fréquences se substituent aux probabilités ; elles seront les 
contreparties des probabilités. 


On va donc répéter une expérience un nombre fini de fois, noté n ; on aura 
donc observé une sous-population appelée échantillon. Chaque expérience 
aléatoire produit un résultat xi ; on disposera donc devi •) • • • ? 3Cyi ^ ensemble 
appelé échantillon de valeurs de la variable étudiée X. 

• De façon plus formelle, on définit un échantillon d’une variable aléatoire de 
la manière suivante : 

Un échantillon de taille n d’une variable aléatoire X est un 

ensemble Ai, Xi , ..., X„ de n variables aléatoires, indépendantes entre elles, et 
ayant chacune la même distribution que X. On peut donc dire qu’un échantillon 
de valeurs de X est une réalisation de l’échantillon de la variable X tel qu’il 
vient d’être défini. 

8.2 - Représentation complète d’une série d’expériences 
8.2.1 Cas d’une variable qualitative 

La variable est décrite par la suite des probabilités des différentes modalités. Si l’on 
connaissait ces probabilités, on produirait le diagramme en bâtons (ou répartition « vraie ») 
de cette variable ; on va produire la répartition observéepar substitution aux probabilités 
inconnues des fréquences observées. Si la variable est ordinale, on respectera cet ordre dans 
l’énumération des modalités portées en abscisses. 
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^ Fréquences 



modalité t m odalité 2 


D'autres types de représentation sont utilisés : par exemple la représentation en 
camembert où les différentes modalités sont représentées par secteurs angulaires d'angles 
au centre proportionnels aux fréquences observées. 


C 



8.2.2 Cas d’une variable quantitative discrète 

La situation est similaire si ce n’est qu’il existe un ordre et une échelle naturels en 
abscisses ; la répartition observée se nomme également histogramme en bâtons. 


A F réquenc e s 


valeur 1 valeur 2 


8.2.3 Cas d’une variable quantitative continue. Notion d’HISTOGRAMME 

Dans le cas de variables continues, on va choisir de représenter les données graphiquement 
d’une façon qui soit proche de la représentation d’une densité de probabilité d’une variable 
aléatoire continue. Pour cela on découpe l’ensemble du domaine des valeurs possibles de la 
variable étudiée en intervalles contigus dont on choisit le nombre et les bornes. Afin 
d’obtenir une représentation proche d’une densité de probabilité, on décide de représenter 
indirectement la fréquence des valeurs observées comprises entre deux bornes consécutives 
par la surface d’un rectangle dont la base sera précisément cet intervalle. Autrement dit la 
hauteur de ce rectangle sera le rapport de la fréquence observée de ces valeurs et de la 
différence entre ces bornes (différence également appelée largeur de la classe). 
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i (m 1 ) 



Les bornes sont choisies arbitrairement ; néanmoins, pour que l’histogramme ait un sens il 
est nécessaire que la taille de chaque classe constituant un intervalle comprenne un nombre 
suffisa mm ent grand de valeurs observées, de telle façon que la surface d’un rectangle 
élémentaire puisse être interprétée comme approchant la probabilité pour que la variable 
prenne une valeur comprise dans l’intervalle du rectangle. Si la taille de l’échantillon croît, 
la surface de chaque rectangle tend vers la probabilité que la variable ait une valeur incluse 
dans l’intervalle correspondant. De plus, si la taille n de l’échantillon est grande, on peut 
alors sans inconvénient construire un plus grand nombre de classes, c’est-à-dire construire 
par exemple deux fois plus de rectangles, chacun ayant un support deux fois plus petit. En 
répétant cette opération, n croissant, on peut comprendre que l’histogramme tend (d’une 
façon que nous ne préciserons pas ici) vers la densité de probabilité de la loi qui a généré 
l’échantillon. 


8.3 - Représentation simplifiée d’une série d’expériences 

On a défini certains indicateurs pour représenter, de façon plus résumée que ci-dessus, un 
échantillon de valeurs issues d’une variable aléatoire. 

Les indicateurs présentés ci-dessous ne concernent que les variables quantitatives. 

8.3.1 Indicateurs de localisation des valeurs 

Médiane observée 

C'est la valeur qui partage l'échantillon en deux groupes de même effectif ; pour la 
calculer, il faut commencer par ordonner les valeurs (les ranger par ordre croissant 
par exemple) 

Exemple : soit la série 12 3 24 1 5 8 7 
on l'ordonne : 1 3 5 7 8 12 24 
7 est la médiane de la série 

Moyenne observée 
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C'est l'indicateur de localisation le plus fréquemment utilisé. La moyenne observée 
d'un échantillon de n valeurs xi, ..., x n est définie comme la moyenne arithmétique 
de ces valeurs ; on la note souvent m x , ou simplement m s'il n'y a pas de confusion 
possible : 


« 

m = - y X: 
n ^ J 
j = 1 


Avec la série précédente, qui comporte n = 7 valeurs, on obtient : 


1 ' 12 + 3 + 24 + 1 + 5 + 8 + 

m - - V X; - 

7 ^ i 1 

î = 1 


8.3.2 Indicateurs de dispersion des valeurs 

Variance observée 


La variance observée d'un échantillon {x/} / = 1, ..., n est donnée par 


j 


1 

n - 1 


Z tern ) 2 

1 = 1 


Attention : on divise par n -1 et non par n pour que la variance observée soit un bon 
estimateur de la variance théorique de la loi (nous reverrons ce point dans la suite). 
Une autre expression de s 2 , équivalente, est indiquée dans le résumé de ce chapitre. 

Ecart-type observé 


L'écart-type observé, noté s, est défini par s 



8.4 - Reformulation de la moyenne et de la variance observées 

Prenons le cas d’une variable quantitative discrète. 

Les données sont notées 1 9 • • • ^ il • 

Les k valeurs possibles de la variable sont notées vali,vah, ...., vaU. 

Exemple d’un jet de dé : vali = 1, •••, valô = 6 
Chaque donnée Xi coïncide avec une certaine valeur val 7 
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Par exemple pour le jet de dé, on peut avoir 

• jet n?l ; xi = 1 = vali 

• jet n?2 ; X2 = 1 = vali 

• jet n?3 ; X3 = 4 = vaU 

• jet n?4 ; X4 = 3 = vaU 

• jet n?5 ; xs = 6 = valô 

• jet n?6 ; X6 = 1 = vali 

• jet n?7 ; X7 = 2 = vab 

• jet n?8 ; xs = 5 = vais 

• jet n?9 ; xg = 6 = vab 

fî jfc 

z*i = irt 

Alors : i= : J = [ 

où tij est le nombre de fois où une observation coïncide avec val/ 

Dans notre exemple du jet de dé, on a : m = 3, m = I , m = 1, m = I , m = 1, ne = 2 

1 * *K.- 

m = — y X: = T -A r al 

n _‘ _ n J 

Finalement ï ~ J ~ 

J_ 

Mais " est une approximation de /Mface marquée = val/) 

Ainsi m est une estimation - une appréciation - de : 

T val valent de la variable = val ù 
Lu j y 

j 

c’est-à-dire une appréciation de l’espérance mathématique de la variable. 

On raccorde ainsi une moyenne observée à une grandeur descriptive du phénomène étudié, à 
une grandeur dite « théorique » ou « vraie ». 

On peut dire ceci : la répétition des expériences vise à estimer Pr(v aleur de la variable = 
certain niveau). La moyenne observée permet d’estimer quelque chose de plus grossier, une 
combinaison de toutes ces probabilités, précisément l’espérance mathématique 

[l = y vaL/V (valeur de la variable = vaL) 

JiihhI k i k î 

/ 

C’est la raison pour laquelle dans la suite on utilisera également la 

terminologie MOYENNE « VRAIE » ouMOYENNE THEORIQUE de la variable pour 

parler de l’espérance mathématique. 
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Retenons : 


ESPERANCE MATHEMATIQUE, 

MOYENNE « VRAIE », 

MOYENNE THEORIQUE 

sont SYNONYMES. Ce sont des grandeurs théoriques. 


Remarque 

La même analyse peut être faite - mais l'expression est un peu plus délicate - dans le 
cas d'une variable quantitative continue. La moyenne observée approxime là encore 
l'espérance mathématique. 

8.4.2 Reformulation de la variance observée 

De la même façon on peut obtenir le résultat suivant : s 2 est une approximation de la 

-j 

— V (val - p P r (valeur de la variabl e — val J 
grandeur J 

Cette expression, introduite dans le chapitre 6 sous le nom de variance sera souvent 
dénommée dans la suite VARIANCE « VRAIE » ou VARIANCE THEORIQUE de la 
variable. 

Dans le cas d’une variable continue, la variance observée s 2 approxime : 

cT = i(x-\i) 2 j{x)dx 

h 

LES DIFFERENCES ENTRE CES NOTIONS DE MOYENNE ET VARIANCE 
« VRAIES », ET DE MOYENNE ET VARIANCE OBSERVEES 
SONT ESSENTIELLES ; NOUS ENGAGEONS LE LECTEUR A BIEN LES 
COMPRENDRE AVANT DE POURSUIVRE. 

8.5 - Cas particulier d’une variable à deux modalités - Proportion 

On est très souvent amené à considérer des variables à deux modalités, c’est-à-dire des 
expériences aléatoires à deux événements élémentaires. 

Exemples : 

• maladie : maladie présente - maladie absente 

• signe clinique : présent - absent 

• traitement : individu traité - individu non traité 
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Or on peut transformer une telle variable en variable quantitative, sans restriction de 
généralité, par un artifice de codage : 

• une des modalités est codée avec la valeur numérique 0 ; 

• l'autre modalité est codée avec la valeur numérique 1. 

Une telle variable s’appelle variable de Bernoulli. 

Notons X cette variable. 

Elle est complètement décrite par la donnée de Pr ( valeur de la variable =1) car 
/Mvaleur de la variable = 1) + Pr(y aleur de la variable = 0) = 1 . 

On utilise la notation conventionnelle suivante : /Mvaleur de la variable = 1) SE NOTE IL 

8.5.1 Expression de l’espérance mathématique de X 

Utilisant l’expression générale de l’espérance mathématique, et remarquant que vali = 0, 
vah =1, on obtient : 


p — y val ./Mvaleur de la variable — vaT) — 0 x ( 1 — II) + 1 x II = Ü 

/ 

Ainsi, p = n = /Mvaleur de la variable = 1) = probabilité de la modalité codée 1 = 
PROPORTION VRAIE des individus présentant la modalité 1 . 

8.5.2 Expression de la variance de X 

a" = y (vah - p) 2 JV{ valeur de la va. = val.) = (0 - D) 2 (l - D) + (1 - ITflI = ü( 1 - II) 

J 

8.5.3 Interprétation de la moyenne observée 

1^ Iriufuii/ixi i i nombre de fois où X= 1 
m -? x j -L ü tUtI + UtItIt ...J 

«4- 1 J n n 

J 

Ainsi, m coïncide avec la fréquence observée de la modalité codée 1 . Cette fréquence sera 
notée p et s’appelle de façon naturelle PROPORTION OBSERVEE d’individus présentant 
la modalité 1 . 

Exemple 

Dans le cas de l'étude d'un signe clinique, en codant 1 la présence du signe 
clinique, m (donc p) sera la fréquence observée de la présence du signe ou encore le 
pourcentage des individus présentant le signe (à un facteur 100 près). 

En résumé 
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• si X est une variable de Bernoulli, 
o sa moyenne « vraie » = n 
o sa variance « vraie » = n(l - n) 

. UNE PROPORTION OBSERVEE EST UNE MOYENNE OBSERVEE. 


8.6 - Conclusion : la variable aléatoire moyenne arithmétique 

On a jusqu’ici associé une valeur de moyenne observée à une série de n réalisations 
d’une variable aléatoire quantitative X. Mais chaque expérience consistant à 
recueillir n réalisations de la variable X permet de calculer une valeur, différente à 
chaque expérience, de moyenne observée. Autrement dit, la moyenne observée doit être 
vue comme une nouvelle variable aléatoire que nous appellerons moyenne arithmétique ; 
on la notera M. Dans certains cas, afin de rappeler que cette variable dépend de n, on 
notera M„ la variable construite à partir de n réalisations de X. 




i= I 


On utilisera la terminologie suivante : 

on dira que M (ou M n si nécessaire) est la VARIABLE ALEATOIRE MOYENNE 
ARITHMETIQUE DEDUITE DE LA VARIABLE ALEATOIRE X, FONDEE 
SUR n REPETITIONS 

ou, de façon équivalente que M (ou M„ si nécessaire) est la VARIABLE ALEATOIRE 
MOYENNE ARITHMETIQUE ASSOCIEE A LA VARIABLE ALEATOIRE X, 
FONDEE SUR n REPETITIONS 

Remarque 

Dans le cas où X est une variable de Bernoulli, M n sera notée P„ (et M simplement P). Il 
s’agit d’une variable aléatoire proportion dont on connaît déjà pratiquement la 
distribution puisque 

nP n ~ B (n, n) (voir section 7.1.2) . 
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Chapitre 9 - Fluctuations de la moyenne observée : 
la variable aléatoire moyenne arithmétique 


On conserve le contexte d’étude du chapitre précédent, c’est-à-dire l’examen de la 
variabilité d’une grandeur (variable aléatoire) dans une population d’individus ou unités 
statistiques. Mais on s’intéresse ici à la variable aléatoire « moyenne arithmétique ». 

9.1 Première propriété de la variable aléatoire moyenne 
arithmétique 

9.1.1 Un exemple 

Prenons à nouveau le cas d’une variable discrète pouvant prendre les deux valeurs 0 et 1 
[c’est-à-dire variable associée à présence-absence ou oui-non]. Supposons que l’on ait des 
raisons de penser que Pr(X = 0) = Pr(X = 1) = 1/2. On a vu qu’une telle variable a pour 
espérance 1/2, pour variance « vraie » 1/4. 

On peut, par le calcul, pronostiquer le résultat d’une répétition d’expériences. En particulier, 
calculer la répartition de la variable « moyenne arithmétique calculée sur un échantillon de 
deux individus », notée Mi, ici deux lancers de pièce. 

On isole cette variable. Quelles valeurs peut-elle prendre, avec quelles probabilités ? 


jet 1 : 

résultats 

Proba jet 1 

jet 2 : 

résultats 

Proba jet 2 

Proba jetl, 
jet2 

m 2 

0 

1/2 

0 

1/2 

1/4 

1/2 (0+0) = 0 

0 

1/2 

1 

1/2 

1/4 

l/2(0+l) = 1/2 

1 

1/2 

0 

1/2 

1/4 

l/2(l+0) = 1/2 

1 

1/2 

1 

1/2 

1/4 

1/2(1+1) = 1 


PriMj = 0) = 7 , Pr\M, 

Ainsi, 

Alors : 


i+i 

4 4 




moyenne vraie de AA = Qx^+lxl+lxl = - = moyenne vraie de X 

2 42242 
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variance vraie de M i 



• 

Ainsi la variance « vraie » de la moyenne arithmétique est plus faible que la variance 
« vraie » de la variable d’origine (la moitié ici). L’espérance reste inchangée. Et ainsi vont 
les choses si la taille des échantillons (ici 2) qui constituent les unités statistiques augmente. 
La dispersion de M diminue au fur et à mesure que M se trouve calculée sur la base d’un 
échantillon de taille croissante. Le « comment » de cette situation peut être résumé ainsi : les 
valeurs de la moyenne arithmétique deviennent de plus en plus probables dans un voisinage 
de l’espérance car le nombre de situations pouvant donner une valeur observée proche de 
l’espérance augmente dans ce voisinage. Cela est dû au fait que l’espérance mathématique 
est « au milieu » des valeurs possibles. On le voit sur l’exemple ci-dessus où l’espérance est 
obtenue dans les deux cas (0, 1) et (1, 0). C’est encore plus perceptible sur l’exemple d’un 
dé. Pour que la moyenne observée calculée sur deux jets de dé soit 6, il faut obtenir le 
résultat (6, 6) ; pour qu’elle soit 3, il faut un total de 6, c’est-à-dire (5, 1), (4, 2), (3, 3), (2, 

4), (1, 5), soit un événement 5 fois plus probable. 

Il est possible de quantifier tout cela. On peut généraliser ce qui a été obtenu avec deux jets 
de pièces et on obtient, quelle que soit la distribution de la variable étudiée - qu’elle soit 
continue ou discrète - les résultats fondamentaux suivants. 

9.1.2 Généralisation 

i. L'espérance mathématique, ou moyenne « vraie », de la variable aléatoire moyenne 
arithmétique calculée sur un échantillon de taille n coïncide avec la moyenne 
« vraie » de la variable étudiée, ce que l'on peut résumer par : 


ii. La variance « vraie » de la variable aléatoire moyenne arithmétique calculée sur un 
échantillon de taille n est égale à la variance « vraie » de la variable DIVISEE PAR n, 
ce que l'on peut résumer par : 


CT 2 (A/ J = -u (X) 
d'où la relation entre écarts-types : 
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iii. Dans le cas où X est une variable de Bernoulli de paramètre n ( Pr(X = 1) = 11), les 
relations précédentes deviennent : 


\i(Pn) = n 


°<?n) 


nçi-iT) 

n 


9.2 - Seconde propriété de la variable aléatoire moyenne 
arithmétique : le théorème central limite 


On souhaiterait comparer, par curiosité, les distributions de plusieurs moyennes 
arithmétiques, correspondant à diverses variables aléatoires. Par exemple la taille, la 
glycémie. Ces distributions sont différentes, ne serait-ce qu’à cause des différences entre 
moyennes et variances « vraies ». Pour s’abstraire de ces premières différences, considérons 
la variable centrée réduite associée, soit pour chaque variable considérée : 


M n - 


j ?ï- 


) . _M n -v,{X) 




5 Oit 


CTfjn 


Maintenant toutes ces variables ont en commun leur espérance (0) 
et leur variance (1). Il se passe quelque chose d’extraordinaire : lorsque n est suffisamment 
grand, elles finissent par avoir en commun leur distribution, leur densité de probabilité. 


Cela signifie que les distributions de toutes ces variables (moyennes arithmétiques centrées 
réduites issues de variables aléatoires différentes) finissent par coïncider, lorsque n est 
suffisamment grand, avec une distribution particulière unique. Cette distribution 
s’appelle LOI NORMALE, et puisque sa moyenne « vraie » est nulle et sa variance 
« vraie » est 1, on l’appelle LOI NORMALE CENTREE REDUITE ou encore distribution 
de Gauss ou de Laplace-Gauss (1800). 


On la notera schématiquement N(0, 1) où 0 rappelle la valeur de la moyenne « vraie », 1 la 
valeur de la variance « vraie ». 

Donc la propriété ci-dessus - connue sous le nom de théorème central limite - s’énonce : 

THEOREME CENTRAL LIMITE 

Soit X une variable aléatoire quantitative d’espérance mathématique p, de variance « vraie » 
o 2 . Soit M n la variable aléatoire moyenne arithmétique associée à X construite 
sur n répétitions. 





U 

La distribution limite de la variable aléatoire 

est la distribution 

normale centrée réduite notée N(0,1). 



Nursunity 


Page 66 


Il faut bien mesurer la portée de cette propriété. Quel que soit le phénomène étudié - 
apprécié par la variable aléatoire que l’on étudie - il suffit de connaître la moyenne et la 
variance de la variable pour déduire la distribution (la densité de probabilité) - c’est-à-dire 
l’expression la plus achevée des propriétés de variabilité - de la variable aléatoire moyenne 
arithmétique calculée sur un échantillon de taille suffisante. Nous reviendrons plus loin, au 
paragraphe résumé et précisions , sur cette notion vague « taille suffisante ». Or c’est peu de 
connaître moyenne, variance (ou écart-type) seulement - ex. : pour le poids à la naissance 
p = 3 kg, o= 1,2 kg. 

9.3 - Etude de la distribution normale (rappel) 

La distribution limite que l’on a mise en évidence dépeint une variable aléatoire d’espérance 
mathématique 0 et de variance « vraie » 1, que l’on a appelée distribution normale centrée 
réduite ou N(0, 1). 


f(x) 

La densité de probabilité est donnée par une fonction d’équation 
l’allure est représentée sur la figure 5. 

Ses principales caractéristiques morphologiques sont les suivantes : 

• elle est symétrique, 

• elle présente deux points d’inflexion en x = 1 et x = - 1 

Par ailleurs, pour faciliter les calculs de probabilité relatifs à cette variable, des tables ont été 
construites qui donnent le lien entre a et u a , où ces valeurs ont le sens suivant (voir 
figure 5) : 

Pr{X€ [-u a ;+«J) = a 

En particulier, pour a = 0,05, la valeur u a lue dans la table est 1,96, d’où nom = 1,96 

On peut voir facilement que toute probabilité j : | ^ 6 s’obtient à partir d’une telle 
table, quelles que soient les valeurs de a et b. 


1 


■Jli r 


et dont 



-3 -2 -1 0 U u 1 2 3 


Figure 5 : loi normale centrée réduite 


Remarque 


Nursunity 


Page 67 


Sur la base de cette loi centrée réduite, on définit toute une famille de lois de la façon 
suivante : 

Si X est distribuée selon une loi normale centrée réduite (notation X ~ N (0, 1)), 
alors la variable Y = g X + p, dont l’espérance est p et la variance a 2 , est distribuée 
selon une loi normale d’espérance p et de variance a 2 . 

On écrit Y ~ N (p, a 2 ) 

A l’inverse, si on dit que X ~ N (p, o 2 ) 

X ~ ^ ~ N(0, 1) 

cela veut dire que ° (variable centrée réduite associée). 

Exemple 

La figure 6. présente l’aspect de deux distributions normales l’une N(0, 1), l’autre 
N(2,9 , 4). 



Figure 6 : exemple de lois normales 


Résumé et précisions (théorème central limite) 

Si n est suffisamment grand, X ayant pour moyenne « vraie » p, pour variance 
« vraie » o 2 , alors : 

M - p 

— ~ Nf 0, 1 ') (à peu près) 

a 

<Jn 


M n ~ n( p, —) (à peu près) 
ou, de façon équivalente, " n " 

où la notation ~ se lit : « est distribué comme » ou « suit une distribution ». 

a. La distribution de M n est exactement une loi normale (la mention à peu près est 
inutile), quel que soit n, si X elle-même est gaussienne (i.e. est distribuée 
normalement). 

b. si X n’est pas gaussienne : 

o siX est une variable quantitative autre que Bernoulli, la condition de 
validité usuelle est n > 30 
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O 


si X est une variable de Bernoulli (valeurs 0 et 1), la condition usuelle de 
validité est 


«n > 5 et 
n(l -U)>5 

^ I. m 


En outre dans ce cas, p = II, o 2 = Il (1 - II) si bien que l’on aura 


p n -u 

~ N( 0. l 'i (à peu près) 


n-rn 


n 


P n ~ N| n, j (à peu près) 

ou, de façon équivalente, 

9.4 - Application du théorème central limite. Intervalle de Pari (I. 

p.) 

9.4.1 - Définition de l’intervalle de pari (I. P.) d’une moyenne observée 


On considère une variable aléatoire de moyenne « vraie » p et de variance « vraie » a 2 . 
On sait que pour n grand ( n > 30, ou ni! et n{\ - II) > 5) : 


g 

la variable est approximativement distribuée selon N (0, 1). 

On se pose le problème suivant. On s’apprête à réaliser une série d’expériences, c’est-à-dire 
à mesurer la variable Asur un échantillon de n individus. Peut-on construire un intervalle 
[a, b] tel que la probabilité pour que la moyenne observée que l’on s’apprête à calculer 
appartienne à cet intervalle ait une valeur donnée ? Il s’agit donc de construire un intervalle 
qui contienne avec une probabilité fixée la valeur observée que l’on va obtenir. 


Il s’agit donc de trouver deux valeurs a et b telles 

Pria <M„ < b) = valeur donnée = 1 - a 
que n 


Exemple : ~ M » ~ b) = 0 


= 0. 95 


Un tel intervalle [a, b] s’appelle INTERVALLE DE PARI (I. P.) de niveau 1 - a, ou 
encore intervalle de pari au risque a, ou encore INTERVALLE DE FLUCTUATION 


La figure 7 illustre le problème posé. 
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Figure 7 : le problème de l’intervalle de pari 


Ce problème admet plusieurs solutions : sauf besoin spécifique on choisit un intervalle 
symétrique autour de p (ce qui est naturel compte tenu de la distribution de M„). 


Résolution : 


a - |i -X — et h — |i + X— 
Jn Jn 


La valeur X inconnue doit vérifier : 


CT 


Pr\\l-X — <M |J <p + 
■Jn 


4 ) - * - * 

Jn 


Pr 




1 - a 


( 


\ 


Pr 


-X< 




<}.. 





j 


1 - a 


Si le théorème central limite s’applique, l’expression ci-dessus suit une loi N(0, 1) ; notons- 
la Z. Alors X doit vérifier Py V~ L ^Z<X) - 1 - Qt ç’est le u a de la table. 


Finalement : X = u a 

Pr {^ ~ ^ + 4..^) = 1 - a 


IP I-a = 

CT , CT " 

b - u s.~F ■- + u aj= 

L -Jn 


Intervalle de Pari (I. P.) de la moyenne observée d’une variable de moyenne « vraie » p, de 
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variance « vraie » a 2 construite sur un échantillon de taille n 


Exemple : a = 0,05 u a = 1 ,96 


p- 1,96^; |i + 1 : 96-^ 
Jn Jn- 


Les conditions de validité de cette construction sont celles du théorème central limite, c’est- 
à-dire n> 30 pour les variables continues non normales et nll, n( 1 - II) > 5 pour les 
variables de Bernoulli. 


Cas d’une variable de Bernoulli : p est notée II, a 2 = Il (1 - II). Donc 


IP 


0.95 



II- 1.96 r 1 - 1 n ~ : 11+ 1.96 fni1 ni 


n 




L’interprétation de l’intervalle de pari est fondamentale. Si cet intervalle est bien calculé, on 
est quasi sûr, avec une probabilité 1 - a (ici 0,95), d’obtenir une valeur de la moyenne 
observée comprise dans cet intervalle. En pariant que la valeur va tomber dans cet intervalle, 
on se trompera (en moyenne) dans cinq pour cent des expériences. 

Exemple : 


On a des raisons de penser que la fréquence d’une maladie dans la population est II = 0,2. 
L’intervalle de pari de la moyenne observée (proportion observée) calculée sur 64 individus 
au niveau 0,95 est : 


IP 


0.95 


0 7 _ 1,96 70,2(1-02) L96 70,2(1 

764 = 764 


U.J, J 


= [0,10 : 0,30] 


Il y a 95 chances sur 100 pour que la proportion observée « tombe » dans cet intervalle. 

9.4.2 Les facteurs de dépendance de la longueur de l’intervalle de pari 
(IP) 


La longueur de l’IP est 






la longueur dépend de a 

Si u - c: a , la longueur de est supérieure à la longueur de 


Exemple 

a = 0,05 => uo,o 5 = 1,96 
a = 0,01 => uo,oi = 2,57 
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la longueur dépend de n 


IP 


1 -a 


La longueur de ' décroît avec n. C'est le reflet du fait connu selon lequel les 
fluctuations d'échantillonnage s'estompent avec n 


Exemple 

Dans le cas ci-dessus, si on remplace n = 64 par n = 6400, on 
obtient - t°- 19 : 


Remarque 

Pour réduire dans un rapport 2 la longueur de l'IP, il faut un échantillon 4 fois plus 
grand (2 2 ). 

9.4.3 L’intervalle de pari d’une variable aléatoire 

Ce que l’on a dit pour une moyenne observée peut s’envisager pour une 
variable X quelconque dont on connaît la distribution. 

L’IP de niveau 1 - a est l’intervalle [a, b] tel que ^ r[a = 1 - a . 

Exemple : 

X ~ N(0, 1) 

■^* 1 — a — [ 1 


Une valeur numérique à retenir : 

pour une variable aléatoire normale centrée réduite IPo ,95 = [-1,96 ; 1,96] 
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Résumé du chapitre 9 


1. Propriétés de la moyenne arithmétique M n d’une variable aléatoire X, moyenne 
calculée sur n unités statistiques : 

moyenne « vraie » de M„ = moyenne « vraie » de X 

variance « vraie » de X 

variance « vraie » de M„ = n 

2. Théorème central limite 

Si X a pour moyenne « vraie » p, pour variance « vraie » o 2 , M n est, lorsque n est 
suffisamment grand (n > 30, ou «Il et n( 1 - II) > 5), à peu près distribuée comme 

une variable normale de moyenne « vraie » p et de variance « vraie » a n , ce 
que l’on écrit : 


T 



M * ^ ~ Nf 0, 1) 
cr 

Jn 


3. Intervalle de pari (I. P.) 

Lorsque les conditions ci-dessus sont satisfaites, l’intervalle 


IP 


1 - CL 


cr . cr 
Jn Jn J 


a la propriété suivante : 


Pr(M n e IPj_J = 1-a 


4. Cet intervalle s’appelle intervalle de pari (I. P.) de niveau 1-a, ou intervalle de 
pari au risque a. 


Nursunity 


Page 73 


Chapitre 10 : Estimation - Intervalle de confiance 

10.1 Introduction 

Le problème de l’estimation statistique est le suivant : on cherche à connaître les valeurs de 
certaines caractéristiques d’une variable aléatoire grâce à des observations réalisées sur un 
échantillon. Un grand nombre de problèmes statistiques consistent en la détermination de la 
moyenne « vraie », sur la base d’observations réalisées sur un échantillon. Cependant, on 
peut aussi chercher à connaître les valeurs d’autres caractéristiques, comme par exemple les 
variances (exemple c. ci-dessous). 

Exemples : 

a. quelle est la fréquence de survenue de tel type de cancer chez les souris ? 

b. quelle est la vraie valeur de la glycémie de ce patient ? 

c. quelle est la variance de la glycémie mesurée chez ce patient ? 

Il est bien sûr impossible de répondre à ces questions au sens strict. 

On y apporte généralement deux types de réponses : 

1. On produit une valeur qui nous semble être la meilleure possible : on parle alors 

d'estimation ponctuelle. 

2. On produit un intervalle de valeurs possibles, compatibles avec les observations. 
C'est la notion d'intervalle de confiance ou d'estimation par intervalle. 

Dans la suite on note X la variable aléatoire dont on cherche à estimer une caractéristique, 
aussi appelée paramètre, dont la valeur est notée 0 . Par exemple le paramètre peut être la 
glycémie, et sa valeur celle du patient considéré. 

10.2 Estimation ponctuelle 

10.2.1 Définition 

A partir d’un échantillon (Ai, X2 , ..., X„) de la variable aléatoire X, on construit une nouvelle 
variable aléatoire t{X 1X2, ..., X n ) dont les réalisations « se rapprochent » de la valeur 0 . Cette 
nouvelle variable est appelée estimateur de 0 . Pour simplifier, cette variable t(X 1, X2 , ..., X n ) 
est notée T n ou T. 


1 * 

M n = -Y J X 1 

h 

Par exemple t(X 1, X2 , ..., X n ) = i= - « se rapproche » de l’espérance de X (voir 

chapitre 9 ). 

C’est un estimateur naturel de E[X], 
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10.2.2 Propriétés 


Les estimateurs sont des fonctions des échantillons : ce sont donc des variables aléatoires qui 
possèdent une densité de probabilité, et le plus souvent, une moyenne (espérance 
mathématique) et une variance. Ces deux grandeurs permettent de comparer, dans une 
certaine mesure, les estimateurs entre eux. 



Figure 8 : densité de probabilité de 3 estimateurs Tl, T2 et T3 


La figure 8 représente les densités de probabilité de 3 estimateurs Tl, T2 et T3 d’une 
moyenne p. 

10.2.2.1 Biais 

On voit sur la figure 8 que Tl et T2 sont centrés autour de p, tandis que T3 a pour 
moyenne 0 inférieure à p. Cette notion est définie plus précisément de la manière suivante : 

Le biais d’un estimateur, noté B (T), est la différence moyenne entre sa valeur et celle de la 
quantité qu’il estime. On a : 

£(T) = E( T - 0) = £(T) - 0 

Ici, on a : 5(T1) = E(T\ - p) = ÆfTl) - p = 0 

de même : B( T2) = 0 

mais : 5 ( T3 ) = £(T3 “ h) = £(T3) - p = p' - p < 0 

On dit que Tl et T2 sont des estimateurs sans biais de p, et que T3 est un estimateur biaisé 
de p. 


10.2.2.2 Variance 

La variance d’un estimateur est définie de la manière usuelle : 
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var( T) = E [ T - E( T)] 2 

Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en 
effet, ses valeurs sont « en moyenne » plus proches de la quantité estimée. 

Par exemple, sur la figure ci-dessus, on voit que var(T\ ) < var( T2). On peut donc conclure 
que Tl est un meilleur estimateur de p que T2. 

Quand des estimateurs sont biaisés, en revanche, leur comparaison n’est pas aussi simple : 
un estimateur peu biaisé, mais de variance très faible, pourrait même, en pratique, être 
préféré à un estimateur sans biais, mais de variance grande. 

10.2.2.3 Erreur quadratique moyenne 

L’erreur quadratique moyenne est une grandeur permettant de comparer des estimateurs 
entre eux, qu’ils soient biaisés ou sans biais. Elle est définie de la manière suivante : 

EQM(T) = £[(T - 0) 2 ] 

On démontre facilement qu’on peut relier l’erreur quadratique moyenne, l’espérance et la 
variance d’un estimateur par l’expression suivante : 

EQM(T) = var( T) + \E(T) - 0] 2 = vu HT) + B{ T) 2 

En particulier, l’erreur quadratique moyenne des estimateurs sans biais est égale à leur 
variance. 


Lorsqu’on compare deux estimateurs, on considère que le meilleur est celui qui présente 
l’erreur quadratique moyenne la plus faible. 

10.2.3 Exemple 


On a souvent utilisé, dans ce cours, les quantités m, moyenne observée, et s 2 , variance 
observée. La variable aléatoire moyenne arithmétique, notée M n , a été étudiée au chapitre 8. 
De la même manière, étudions la variable aléatoire variance S„ 2 , définie par : 


T 



n - 1 



où ' est la variable aléatoire « moyenne arithmétique de X 2 ». 

On va calculer E(,S« 2 ). On rappelle que si U est une variable aléatoire, la variable moyenne 
arithmétique définie sur C/a les propriétés suivantes : 

E(M V n ) = E(U) (1) et vüHMjj n ) = - var{ U) (2) 

5 7 n 


On a par ailleurs : 
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var(U) = EiU 2 ) - [E(U)] 2 et donc EiU 2 ) = var(U) + [£(£/)] 2 (3). 


On peut maintenant calculer E(S 2 ). Soit X une variable aléatoire d’espérance E(X) = p et de 
variance var(X) = a 2 . On a : 


E(^) = a )-£(A&] 

n - 1 


T T 


A/r • ) = E(Jf ) = a ,, , n , . 

Mais ■ l * n ' d apres (1) et (3). 


(AQ = var(M n ) + [tfO ^)] 2 = - + V - 2 
et d’après (3), (2) et (1), 


et finalement : 


= _ü_ 

n n- 1 


'2,2 O 

O +p - —-\i 

« 


S n 2 est donc un estimateur sans biais de a 2 . 



10.3 - Estimation par intervalle - Intervalle de confiance 

10.3.1 Exemple d’une proportion 


L’idée directrice est la suivante : on souhaite associer à une valeur observée p un intervalle 
appelé INTERVALLE DE CONFIANCE qui ait « de bonnes chances » de contenir la valeur 
« vraie » Il de la proportion. Que signifie de « bonnes chances »? Si l’on effectue un grand 
nombre de fois l’expérience - chaque expérience produisant un pourcentage observé p - on 
construit autant d’intervalles de confiance. On voudrait qu’un grand nombre de ces 
intervalles contienne la valeur « vraie » II. Par exemple que 95 % des intervalles en gros 
contiennent II. On parlera alors d’intervalle de confiance DE NIVEAU 0,95 ou d’intervalle 
de confiance AU RISQUE 0,05. On considérera généralement des intervalles de confiance 
de niveau 1-a. La valeur a sera alors le risque - ou la probabilité - pour qu’un intervalle de 
confiance ne contienne pas la proportion « vraie » II. 

DE FAÇON GENERALE, L’INTERVALLE DE CONFIANCE AU RISQUE a D’UNE 
VALEUR QUE L’ON CHERCHE A ESTIMER EST UN INTERVALLE QUI CONTIENT 
AVEC UNE PROBABILITE 1 - a LA VALEUR CHERCHEE ; IL S’AGIT D’UN 
INTERVALLE QUE L’ON DEVRA ETRE EN MESURE DE CONSTRUIRE A L’ISSUE 
D’UNE EXPERIENCE PORTANT SUR UN ECHANTILLON. 


Comment construire de tels intervalles ? C’est facile graphiquement. 
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proportion ob servée 



proportion observée 



Considérons la figure 9. On a porté en abscisses une échelle 0- 1 de mesure de proportions 
« vraies », en ordonnées une échelle de mesure de proportions observées. Donnons nous une 
valeur de proportion « vraie » ; on sait associer à cette valeur un intervalle de pari de niveau 
0,95 de la proportion observée que l’on est susceptible d’obtenir au cours d’une 
expérimentation conduite sur n individus. Cet intervalle de pari peut être représenté sur 
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l’échelle verticale. Si l’on opère cette représentation pour toutes les valeurs possibles d’une 
proportion « vraie », on obtient un domaine limité par les deux courbes représentées sur la 
figure. 

Considérons alors un problème mettant en jeu une proportion « vraie », II. Supposons que 
nous fassions un ensemble d’expériences, chaque expérience portant sur n individus étant 
productive d’une valeur de proportion observée p. On peut associer à chacune de ces 
expériences un point de coordonnées (II, p) sur la figure 9. Compte tenu de la construction 
précédente, on peut affirmer que ces points appartiendront 95 fois sur cent (c’est-à-dire dans 
95 % des expériences) au domaine limité par les deux courbes, et ceci quelle que soit la 
valeur de II. 

Maintenant supposons qu’une expérience unique ait été réalisée, produisant une valeur de 
proportion, p. Le problème est, sur la base de cette valeur, de définir un intervalle ayant de 
bonnes chances de contenir la valeur inconnue de la proportion « vraie ». La solution, 
immédiate, est fournie par la figure 10. Il suffit de trancher le domaine limité par les deux 
courbes DANS L’AUTRE SENS. Cet intervalle contiendra 95 fois sur cent la véritable 
valeur de la proportion. 

Ainsi, si on adopte cette stratégie de construction, on aura pour chaque valeur observée p un 
intervalle qui contiendra II avec la probabilité 0,95. 

Le problème est résolu. Maintenant, ce qui est simple sur un dessin est compliqué en termes 
de calcul et il existe des tables d’intervalles de confiance et des formules toutes faites 
permettant de former des intervalles de confiance approchés. 

10.3.2 Intervalle de confiance approché d’une proportion « vraie » 


On montre qu’une bonne approximation de l’intervalle de confiance de niveau 1 - a de II, 
fondé sur la valeur observée/?, p étant calculée sur n individus, est donnée par l’intervalle ci- 
dessous : 


IC 


1 - a 


p - U 



(i - p ). 


n 




(1 - p ) 


n 


Notons Ilmin et Ilmax les bornes de cet intervalle. 

Cette approximation n’est jugée satisfaisante que sous les CONDITIONS DE VALIDITE 
suivantes : nTUm > 5, n( 1 -Ilmax) > 5 

LORSQUE LES CONDITIONS DE VALIDITE NE SONT PAS REMPLIES, IL FAUT 
AVOIR RECOURS A DES TABLES (hors programme). 

Exemple : n = 100, a = 0,05, p = 0,12 


IC 


■0 95 


0,12-1.96 r * 12 x 0,88 - p 12 + L96 *.12x0.88 


100 


100 


= [ 0 = 06 ; 0.181 
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conditions de validité 


100 x 0,06 = 6 > 5. 

100 x(l -0,18) = 82 >5. 

10.3.3 Intervalle de confiance approché d’une moyenne « vraie » 
(variable continue) 

De même, il existe une expression approchée pour l’intervalle de confiance de niveau 1 - a 
d’une moyenne « vraie » p, intervalle fondé sur la valeur observée m obtenue après une 
expérience portant sur n individus. Le calcul de cet intervalle suppose en outre le calcul de la 
variance observée .s -2 . L’expression est la suivante : 


IC 


l-o. 


m - u„ _ : m 

Jn 



s 



L’approximation ci-dessus n’est jugée satisfaisante que sous la 
CONDITION DE VALIDITE : n > 30. 


Lorsque cette condition n’est pas remplie, on ne sait plus former d’intervalle de confiance 
sauf si l’on peut supposer que la variable primitive X d’intérêt est normale. 

Si la variable étudiée est NORMALE, alors, et sans autre condition de validité, un intervalle 
de confiance de niveau 1 - a a pour expression : 


IC 


: - a 



où ta est associé à une nouvelle distribution, dite de Student, à (n-1) degrés de liberté (voir 
section 7.2.3) . La notation^ s’apparente à la notation u a et est explicitée table A.6 . 

Remarque (pour une variable normale encore) 

Si la variance « vraie » de la variable étudiée, a 2 , est connue, l’intervalle de confiance a la 
forme suivante : 


T/ - 1 G G 

Ic l- a = ™ - u a — ; m + £i a — 

L -Jn Jn-* 

10.3 - Estimation par intervalle - Intervalle de confiance 

10.3.4 - Applications 

L’intervalle de confiance exprime fondamentalement, comme son nom l’indique, la 
confiance que l’on peut attribuer à un résultat expérimental. 
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IDEALEMENT TOUT PROBLEME D’ESTIMATION DEVRAIT ETRE PRODUCTIF 
D’UN INTERVALLE DE CONFIANCE. Ne donner qu’une estimation ponctuelle masque 
l’incertitude qui accompagne tout résultat. 

Exemple : supposons qu’étudiant la fréquence d’un événement, on ait obtenu une fréquence 
observée p égale à 0,12. 

Supposons que cette valeur ait été obtenue sur la base de 8 individus (l’événement étudié 
s’est donc réalisé une fois). On peut lire dans une table spécialisée que l’intervalle de 
confiance de la fréquence « vraie » est, au risque 0,05 [0,003 ; 0,527]. Cela signifie que cette 
valeur observée de 12 % sur si peu d’individus ne fait qu’indiquer ceci : la fréquence 
« vraie » se situe dans le domaine 3 %o, 52,7 %. 

Supposons que cette même valeur 12 % ait été obtenue sur la base de 100 individus 
(l’événement étudié s’est réalisé 12 fois au cours des 100 essais). L’intervalle de confiance 
associé est alors proche de [0,06 ; 0,18]. Sur la base de cette valeur 12 %, on est maintenant 
en mesure d’affirmer, acceptant toujours un risque d’erreur de 5 pour cent, que la fréquence 
« vraie » se situe dans le domaine 6 %, 18 %, domaine beaucoup plus étroit que le 
précédent. 

De façon générale, la longueur de l’intervalle de confiance indique la précision obtenue. Les 
deux exemples qui suivent montrent l’usage que l’on peut en faire. 

10.3.4.1 Précision d’un sondage 

Supposons que l’on s’apprête à réaliser un sondage pour estimer la prévalence d’une 
maladie, c’est-à-dire la proportion de la population atteinte par cette maladie à la date du 
sondage. On souhaite un résultat précis, c’est-à-dire que Ton souhaite par exemple que 
l’intervalle de confiance résultant ait une longueur au plus égale à 0,04, avec un risque 
d’erreur de 5 %. 

On remarque que la longueur de l’intervalle de confiance ne dépend que d’une seule 
grandeur contrôlable, le nombre d’individus. La question est donc : combien d’individus 
faut-il inclure dans le sondage ? 

Ce problème est simple, puisque la longueur de l’intervalle de confiance s’établit à : 


2 x 1.96 


< 1 -p) 


n 


qu’on arrondit ici à 



(1 -P) 


n 


L’effectif de l’échantillon devra donc être au moins 10000 p( 1 - p). 

Toutefois, cet effectif dépend de p, inconnu avant l’expérience. L’usage de ces calculs 
supposera donc que Ton ait une idée du résultat attendu, grâce à un sondage exploratoire par 
exemple ou grâce à une connaissance préalable du phénomène étudié. 

De façon générale, si Ton souhaite obtenir un intervalle de confiance d’une proportion de 
longueur 2 i, il est nécessaire d’inclure un nombre d’individus au moins égal à : 

1^(1 ~P) ~P) 

.2 « .2 

au risque 0,05 (ou ' au risque a) 
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REMARQUE : Lorsque le sondage est réalisé, un intervalle de confiance lui est associé. 
Dans le langage courant, les instituts de sondage nomment ces intervalles de confiance des 
FOURCHETTES. 

10.3.4.2 Précision d’une moyenne 

Dans le cas où l’on s’intéresse à la moyenne « vraie » d’une variable quantitative, on peut 
effectuer le même type de calcul. Pour obtenir un intervalle de confiance de longueur 2 i, il 
faut inclure un nombre d’individus au moins égal à : 

T 

2 S 

n = “a- 

-jL. 

J 


L’exploitation de ce calcul nécessite ici une connaissance, même approximative, de la 
variance de la variable étudiée pour se donner a priori s 2 - ou mieux a 2 . 

Exemple très important : les problèmes de dosage. 

Soit à doser la glycémie ; on a devant soi un échantillon de sang. Quelle est la concentration 
en glucose ? Si on fait plusieurs dosages, on va obtenir plusieurs résultats. Cela est dû, non à 
la variabilité de la glycémie, mais aux erreurs analytiques. On assimile la glycémie « vraie » 
à la moyenne « vraie » de la variable aléatoire « résultat du dosage ». Supposons que l’on 
connaisse la variance des résultats, car on connaît bien la technique analytique. Par exemple, 
a = 10 mg.l" 1 . Supposons en outre que les résultats expérimentaux soient distribués 
normalement. 


Si on effectue un dosage donnant 90 mg.l" 1 , on a pour intervalle de confiance approché (a 
étant connu) : 

ICo ,95 = [90 - 2a ; 90 + 2a] = [70 ; 1 10] soit un intervalle de longueur 40. 

Si on effectue deux dosages donnant 90 et 96 mg.l" 1 , on a 


IC 


03Ô 


93 -2— : 93 + 2— 

Jl ' Jl- 


= [7S.9 : 107,1] 


soit un intervalle d’amplitude 28,2. 

Si l’on effectue trois dosages donnant 90, 96 et 93 mg.l' 1 on a 


IC 


0SÔ 


93 -2— : 93 + 2— 

Jï ' JH 


= [SI ,5 : 104,5] 


soit un intervalle d’amplitude 23,0. 

Ces calculs objectivent le fait bien connu selon lequel la répétition des dosages permet 
d’atténuer les conséquences des erreurs expérimentales. Certains dosages - certaines 
mesures (tension artérielle) - sont répétés avant qu’une valeur soit indiquée. 
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Chapitre 11 - Les tests d’hypothèses. Principes 

Les tests d’hypothèses sont fondés sur les intervalles de pari. 

11.1 Un exemple concret (emprunté à Schwartz) 

Une variété de souris présente des cancers spontanés avec un taux (une fréquence ou 
proportion dans la population) constant bien connu, (p = 20 %. On se demande si un 
traitement donné modifie ce taux (en plus ou en moins), c’est-à-dire est actif. Pour répondre 
à cette question on procède à une expérience sur 100 souris ; il s’agira, au vu du pourcentage 
observé p d’animaux cancéreux, de dire si le traitement est actif. Il n’est pas possible de 
répondre au sens strict à cette question. 

Supposons que le traitement soit sans effet ; alors chaque souris traitée aura toujours 20 
chances sur 100 de devenir cancéreuse. Mais le pourcentage de souris cancéreuses, calculé 
sur un échantillon de 100 souris sera soumis aux fluctuations d’échantillonnage que l’on a 
étudiées. Le pourcentage observé (moyenne observée) pourra prendre a priori, c’est-à-dire 
avant expérience, plusieurs valeurs, même si les valeurs voisines de 0,2 sont les plus 
probables. Des valeurs de 0 ou 100 % pourraient même être observées. Ainsi même si le 
pourcentage observé est très différent de 20 %, il est possible que le traitement soit sans 
effet. 

Supposons maintenant que le traitement soit actif ; la probabilité de cancer pour chaque 
souris (ou la proportion « vraie » de souris cancéreuses dans une population fictive de souris 
traitées) est cpi, différente de 0,2. Encore à cause des fluctuations d’échantillonnage, on 
pourra très bien, peut être de façon peu probable, obtenir une fréquence observée égale à 
20 %. Ainsi même si le pourcentage observé est 20 %, il est possible que le traitement soit 
actif. 


On ne peut donc répondre avec certitude à la question posée. 

Pourtant ne pas répondre serait renoncer à considérer tous les problèmes liés à la variabilité, 
c’est-à-dire à « tous » les problèmes biologiques. Alors on répondra, mais en acceptant un 
risque d’erreur. Répondre correspond à la démarche que chacun adopterait ; par exemple, 
déclarer le traitement actif si le taux observé de cancers après traitement s’écarte 
« nettement » de 20 %. C’est le sens que l’on peut donner à ce « nettement » qui est le 
fondement du principe des tests. 

Dans le cas étudié, on aurait tendance à s’y prendre de la façon suivante. Deux hypothèses 
sont en présence : 

• le traitement est inactif, 

• le traitement est actif. 

La première hypothèse est plus « fine » que la seconde car elle porte en elle une 
interprétation numérique : le pourcentage « vrai » de souris cancéreuses parmi les souris 
traitées est 0,2 - l’autre hypothèse indiquant seulement que ce pourcentage est différent de 
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0,2 ; ce qui est plus vague. Supposons alors vraie l’hypothèse la plus fine. Il devient possible 
de faire des déductions : sachant ce qui se passe au niveau de la population des souris 
traitées on peut en déduire ce qui se passera au niveau d’un échantillon. En particulier, on 
sait construire les intervalles de pari centrés de niveau 1 - a pour la fréquence observée. 

Par exemple, prenant a = 0,05 et n = 100 souris, on obtient IPo ,95 = [0,12 ; 0,28] 

Cela signifie, rappelons-le, que si cp = 0,2 (fréquence supposé « vraie »), 95 % des valeurs 
des moyennes observées calculées sur 100 individus appartiendront à l’intervalle 
[0,12 ; 0,28], 

On adopte alors la stratégie suivante : si la valeur observée de la fréquence de souris 
cancéreuses parmi les 100 traitées appartient à cet intervalle, on considère que cette valeur 
est compatible avec les fluctuations d’échantillonnage et l’activité du traitement n’est pas 
prouvée. Si la valeur observée n’appartient pas à cet intervalle, le traitement sera considéré 
comme actif. Dans ce dernier cas le raisonnement est le suivant. Cet événement (la 
fréquence observée est à l’extérieur de l’intervalle de pari) avait moins de 5 chances sur 100 
de se produire et pourtant il s’est produit ; donc je ne crois plus à l’hypothèse qui m’a permis 
de déduire ces 5 % de chances. 


Remarque : reformulation des calculs 

Notons p la proportion observée de souris traitées développant un cancer, sur les n souris 
traitées. 


Le résultat du test sera de conclure ou non à l’activité du traitement selon 
que ' ” LU w ^- _a c’est-à-dire : 


P OU E 


<Po 


- U 


a 


m>( 1 - <Po) 


n 


<Po + « 


1 - 


a 


n 


où (po est la proportion hypothétique (0,2 dans l’exemple) et u a la borne de l’intervalle de 
pari au risque a de p. 

On suppose ici que les conditions du théorème central limite sont satisfaites. On conclut 
donc selon que : 


p - q> 0 £ an e 



<PoO- 


n 



ou encore selon que 




m i - <po) 


n 


£ OU € [-H 
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IP, 

On reconnaît dans la dernière expression l’intervalle de pari ■ _a d’une variable aléatoire 
N(0, 1), intervalle indépendant de l’expérience projetée. 

C’est comme cela que l’on abordera généralement les tests ; on cherchera à construire une 
variable aléatoire dont on connaisse, si l’hypothèse fine est vraie, la distribution, pour 
pouvoir construire un intervalle de pari ; ici il s’agirait de la variable aléatoire Z déduite de 
la variable aléatoire moyenne arithmétique selon : 


Z = 



<Po( 1 - <Po) 


n 


avec cpo = 0,2 (transcription de l’hypothèse). 

Une telle variable aléatoire s’appelle usuellement « paramètre » du test et est notée 
conventionnellement Z. Ici on sait que Z ~ N(0, 1) et l’on construit l’intervalle de pari de 
niveau 1 - a pour Z. Par exemple avec a = 0,05 , IPo, 95 = [-1,96 ; 1,96]. 

Puis on réalise l’expérience ce qui permet d’obtenir p, valeur observée de P n , donc une 
valeur observée de Z, notée u : 


z — 


p-% 


mn-o z ) 


n 


On pourrait alors s’exprimer comme ceci (une terminologie plus précise sera indiquée plus 
loin) : 

• si z e on ne peut pas dire que le traitement est actif 

• si z g le traitement est actif. 

Nous allons, à la lumière de cet exemple, énumérer les étapes de mise en œuvre d’un test et 
revenir sur différents aspects (sens de a par exemple) avant de donner d’autres exemples de 
tests usuels 
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11.2 - Principe général des tests d’hypothèses 

La mise en œuvre d’un test statistique nécessite plusieurs étapes. 

11.2.1 Les étapes de mises en œuvre 

Etape 1 

Avant le recueil des données. 

Définir avec précision les deux hypothèses en présence Ho et Hi. Ho et Hi jouent 
toujours des rôles dissymétriques. 

Le plus souvent, une des hypothèses est précise, ou fine. Elle engage une égalité 
généralement ; c'est elle qui sera Ho et on l'appellera hypothèse nulle, 

Ho : hypothèse nulle 

Exemple : la fréquence « vraie » d'apparition du cancer chez les souris traitées est 
0,2, ce qui se transcrit par 4> = 0,2 (plus généralement cj) = cJ)o). 

Le principe des tests est d'admettre cette hypothèse Ho sauf contradiction flagrante 
entre ses conséquences et les résultats expérimentaux. 

L'autre hypothèse est toujours plus vague ; elle regroupe toutes les hypothèses, 
hormis Ho. C'est Hi et on l'appellera hypothèse alternative, 

Hi : hypothèse alternative 

Exemple : la fréquence « vraie » d'apparition du cancer chez les souris traitées est 
différente de 0,2, qui se transcrit par cj) * 0,2 (généralement c}) * c})o). 

Remarque : la formulation de ces hypothèses nécessite généralement une 
traduction et une simplification du problème médical sous-jacent. 

Etape 2 

Avant le recueil des données. 

On suppose que Ho est vraie et on cherche à définir une variable aléatoire (ou 
paramètre) dont on connaît alors la distribution. En d'autres termes, on cherche à 
construire une fonction des données à venir dont on connaît la distribution si Ho est 
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vraie. Soit Z cette variable aléatoire. 


P n ~ q>o 

z = 1 — ~Nrn i) 

%C 1 - fo) 


Exemple : 


n 


Si possible, vérifier les conditions de validité. 

Etape 3 

Avant le recueil des données. 


Choisir un seuil. Typiquement a = 0,05 (une quasi obligation en pratique) 

IP 

Construire un intervalle de pari (pour le paramètre Z) de niveau 1 - a, noté 1 -a 

Rappelons qu'il s'agit d'un intervalle tel que si Ho est vraie, alors 

P(Z E IP, „) = 1 - O. 

' 1 . — 


Exemple : 



pour Z ci-dessus = [-1,96 ; 1,96] 


IP 

Définition : l'extérieur de l'intervalle de pari : -a 

au seuil a. 

Etape 4 

Avant le recueil des données. 


s'appelle région critique du test 


Définir la règle de décision. Les données vont permettre de calculer une valeur de Z, 
que l'on note z. 

_ -^réellement observe — - 0 

Exemple : * 


Alors décider que : 

• si z appartient à la région critique, remettre en cause Ho, 

la rejeter, et conclure Hi est vraie, ou dire : « au risque a, Ho est rejetée ». 
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IP 

• si z n'appartient pas à la région critique, mais à l'intervalle de pari - -a , dire 
que l'on ne conclut pas, ou dire que l'on ne rejette pas l'hypothèse nulle Ho. 

Etape 5 

Recueil des données 

Réaliser l'expérience. On recueille les données x \, ..., x n ; calculer z et conclure. 

Si non fait à l'étape 2, vérifier les conditions de validité. 

Etape 6 

Interprétation des résultats 

Cette étape concerne l'interprétation des résultats en des termes compatibles avec 
le problème médical initialement soulevé, et concerne en particulier le problème de 
la causalité. Ce point sera détaillé au chapitre 15. 

Exemple : dans le cas des souris, et en cas de conclusion au rejet de l'hypothèse 
nulle, la question serait de savoir si ce rejet exprime véritablement une activité du 
traitement. 

11.2.2 - Justification de la règle de décision. Choix de a 
11.2.2.1 Interprétation de a 

On a déjà vu une interprétation de a avec l’exemple des souris. De façon générale, a est la 
probabilité pour que la valeur observée - ou calculée - z appartienne à la région critique si 
Ho est vraie. Si cet événement se réalise, on rejette Ho. Cela ne se justifie que si a est petit 
car alors on dit : voilà un événement qui avait 100 x a % chances de se réaliser (5 % par 
exemple) - donc peu de chances - et qui pourtant s’est réalisé : les résultats ne sont pas 
conformes à l’hypothèse => a doit être petit. 

Une autre interprétation de a montre encore mieux que a doit être petit. A nouveau, lorsque 
Ho est vraie, la probabilité d’obtenir un résultat z dans la région critique est a. Mais alors on 
dit « Hi est vraie ». Donc 

=> a = « probabilité » de conclure Hi alors que Ho est vraie 

C’est un risque d’erreur qu’il convient de situer dans des valeurs acceptables (petites). 

Cette valeur a s’appelle RISQUE DE PREMIERE ESPECE. 

Cela veut dire que sur un grand nombre d’expériences, en admettant a, on conclura à tort 
dans lOOxa % des cas (5 % des cas par exemple). Pourquoi alors ne pas choisir un a 
microscopique ? 
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1 1. 2.2.2 Effet d’un changement de valeur de a 

Les intervalles de pari croissent lorsque leur niveau augmente, c’est-à-dire lorsque a 
di mi nue. 

IP 

a = 0,1 [ ] 

IP 

a = 0,05 [ ] 

IP 

a = 0,0 1 [ ] 


Donc, toutes choses égales par ailleurs, la région critique diminue lorsque a décroît. Donc on 
rejette moins fréquemment Ho. 

A vouloir commettre moins d’erreurs, on conclut plus rarement. 

On s’expose donc à un autre risque : celui de ne pas conclure alors qu’il le faudrait car 
Ho est fausse. A la limite, si on se fixe a = 0, on ne conclut jamais, Ho n’est jamais rejetée. 

Prendre une décision, c’est accepter un risque. 

Pour finir avec ce problème de a il faut retenir : 

• La valeur de a doit être fixée a priori : jamais en fonction des données 

• Pire que cela, on choisit la valeur a = 0,05 qui est un compromis entre le risque de 
conclure à tort et la faculté de conclure, compromis adopté par l'ensemble de la 
communauté scientifique. 

11.2.3 - Justification des conclusions du test. Puissance d’un test 

On comprend maintenant la partie de la règle de décision conduisant au rejet de Ho lorsque 
la valeur calculée du paramètre n’appartient pas à l’intervalle de pari. On a par ailleurs 
indiqué (voir l’étape 4 de mise en œuvre des tests) que lorsque la valeur calculée du 
paramètre appartient à l’intervalle de pari, c’est-à-dire lorsque les résultats expérimentaux ne 
sont pas contradictoires avec l’hypothèse nulle, on s’exprime avec beaucoup de précautions 
oratoires puisqu’on demande de dire : « on ne conclut pas » ou « on ne rejette pas 
l’hypothèse nulle ». Pourquoi ne pas affirmer plus directement « l’hypothèse nulle est 
vraie » ? 

Premier élément 
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En faisant cela, on adopte une démarche qui s’apparente à la démarche scientifique 
qui consiste à admettre une théorie jusqu’à la preuve de son échec. Lorsque l’on dit 
« admettre » on ne signifie pas que la théorie est vraie mais qu’elle rend compte pour 
l’instant - jusqu’à plus ample informé - des expériences. 

Exemples 

• la mécanique générale admise jusqu’à la théorie de la relativité 

• la mécanique céleste 

Second élément 

Supposons que l’on mette en parallèle les deux tests suivants : 

Ho : (p = 0,2 Ho : 9 = 0,200001 

Hi: 9^0,2 Hi : (p^ 0,200001 

Les paramètres calculés, soit 


Z 


0 : 2 0 ,200001 



P o b ssrvés °0 

/ q>oCi - fo) 
J a 


seront extrêmement voisins, donc les conclusions pratiquement toujours les mêmes. 

Considérons alors une expérience au cours de laquelle z e pour les deux 
valeurs calculées. Peut-on conclure à la fois cp = 0,2 et cp = 0,200001 ? Pourtant on 
peut remarquer qu’il n’y a pas de vice de fond au niveau de la formulation des 
hypothèses car il existe bien une valeur « vraie », c’est-à-dire qu’il y a vraiment une 
hypothèse vraie du type cp = quelque chose. 

On retient : les tests ne sont pas faits pour « démontrer » Ho, mais pour la rejeter. 

Cela ne veut pas dire que l’on est toujours content de rejeter Ho. 

Exemples 

• cas des souris traitées. Là on aimerait probablement rejeter Ho, c’est-à-dire 
conclure à l’activité du traitement. 

• cas d’un test d’homogénéité. On vous livre un nouveau lot de souris ou des 
souris d’un autre élevage. Vous voulez continuer vos recherches. La première 
chose à faire est de tester l’hypothèse selon laquelle ces nouvelles souris sont 
si mi laires aux précédentes vis-à-vis du taux de cancer, => Ho : cp = 0,2. Mais là 
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vous espérez bien ne pas rejeter Ho. C’est à cette condition que vous pouvez 
continuer. 

PUISSANCE D’UN TEST 

Revenons à la conclusion « l’activité du traitement n’est pas démontrée ». Sous 
entendu compte tenu de l’expérience effectuée. Cela n’a de sens de s’exprimer 
comme cela que s’il est pensable qu’une autre expérience, plus complète par exemple, 
puisse montrer cette efficacité si elle existe. 

C’est le cas, en effet. L’aptitude d’un test à rejeter l’hypothèse nulle alors qu’elle est 
fausse est limitée. Précisément : 

On appelle PUISSANCE D’UN TEST P la probabilité de rejeter l’hypothèse nulle, 
face à une hypothèse alternative, alors qu’elle est fausse. 

La valeur complémentaire à 1 de cette puissance, c’est-à-dire la probabilité de ne pas 
rejeter l’hypothèse nulle alors que l’hypothèse alternative est vraie, s’appelle 
le RISQUE DE DEUXIEME ESPECE et se note conventionnellement P : (3 = 1 - P. 

Le calcul de la puissance d’un test est une opération complexe. La difficulté tient 
essentiellement au fait que l’hypothèse alternative est vague. Pour contourner cette 
difficulté et apprécier plus étroitement cette notion de puissance, considérons le cas 
d’une hypothèse alternative fine. Par exemple, reprenant l’exemple des souris, 
supposons que l’hypothèse Hi soit cp = 0,3, l’hypothèse Ho restant inchangée, c’est-à- 
dire cp = 0,2. Dans ces conditions, il est possible de calculer la distribution de la 
proportion observée, non plus seulement sous l’hypothèse nulle, mais également sous 
l’hypothèse alternative. On obtient : 


sous l’hypothèse nulle (cp = 0,2) : 


P„~n(o,2, °' 2(1 °' 2) ) 


sous l’hypothèse alternative (cp = 0,3) : 


P m ~n(q, 3, 0=3(1 0=3) j 



Figure 11 : risque de deuxième espèce d’un test 

La figure JJ. présente les deux distributions correspondantes, pour une certaine valeur 
de n. Supposons alors juste l’hypothèse Hi ; la valeur observée p sera issue de la 
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distribution de droite, et l’on conclura à tort au non rejet de Ho avec une probabilité 
égale à l’aire grisée, puisque cette aire est la probabilité pour que la valeur observée 
appartienne à l’intervalle de pari associé au test, sachant que cette valeur observée est 
gouvernée par la distribution associée à Hi. Ainsi la valeur de cette aire grisée 
exprime le risque de deuxième espèce (3, son complémentaire à 1 la puissance du test. 
Supposons pour fixer les idées que la valeur de cette aire soit 0,4. Cela signifie que si 
les hypothèses sont (p = 0,2 et (p = 0,3, on aura « 6 chances sur dix » seulement de 
rejeter l’hypothèse (p = 0,2 lorsque cp sera égal à 0,3. Autrement dit, 4 fois sur dix, on 
sera incapable de détecter que cp vaut 0,3 et non 0,2. 



Figure 12 : risque de deuxième espèce d’un test 


Par ailleurs, on perçoit que plus les hypothèses Ho et Hi sont contrastées (par exemple 
les hypothèses cp = 0,2, cp = 0,4 sont plus contrastées que les hypothèses cp = 0,2, cp = 
0,3), plus les distributions de P n sous ces deux hypothèses sont « éloignées », et plus 
la puissance est grande. C’est la raison pour laquelle on dit souvent que la notion de 
puissance est proche de la notion de pouvoir discriminant entre hypothèses. 

La figure 12 reproduit les conditions de la figure JJ_, niais avec une valeur 
de n accrue. Autrement dit le même test est mis en œuvre, mais sur un nombre 
d’unités statistiques supérieur. On constate sur cette figure que le risque de deuxième 
espèce est très faible. Ce résultat est général : 

TOUTES CHOSES EGALES PAR AILLEURS, LA PUISSANCE D’UN TEST 
AUGMENTE AVEC LA TAILLE DE L’ECHANTILLON 

Remarque 

Les calculs de puissance ébauchés ci-dessus, joints au résultat précédent, permettent 
de répondre à des questions du type : 

• combien de sujets est-il nécessaire d’inclure dans un essai pour avoir de bonnes 
chances (9 chances sur dix par exemple) de mettre en évidence une différence 
entre proportions « vraies » d’au moins 0,1 ? 

• si je dispose de 100 sujets, quelle différence minimum entre proportions 
« vraies » suis-je capable de détecter avec une probabilité de 0,9 ? 


Des formules de la relation entre puissance et taille des échantillons seront données 
dans le chapitre 12. 
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Les développements ci-dessus montrent que lorsque vous n’avez pas rejeté 
l’hypothèse nulle, vous pouvez toujours dire que c’est un manque de puissance du 
test puisque Ho est sans doute fausse (pensons à cp = 0,2 exactement). On peut donc 
dire qu’avec un plus grand nombre d’individus vous auriez rejeté Ho. Cela justifie 
l’expression « l’activité du traitement n’est pas démontrée ». 

Cependant il faut être réaliste : reprenons l’exemple des souris traitées ou non traitées. 
Vous avez réalisé votre expérience sur un échantillon de 1000 souris. Résultat du 
test : non rejet de Ho c’est-à-dire l’activité n’est toujours pas démontrée. Il n’est pas 
raiso nn able dans ces conditions d’évoquer un manque de puissance du test ; ce 
résultat suggère plutôt une très faible activité du traitement, si elle existe. 

11.2.4 - Amélioration de l’interprétation du rejet de Ho 
1 1.2.4. 1 Notion de degré de signification 

Supposons que l’on réalise un test au risque ou seuil a = 0,05. 

Considérons deux expériences conduisant au rejet de Ho, pour lesquelles on a obtenu des 
valeurs calculées du paramètre zi et zi représentées ci-dessous. 

On aurait envie de rejeter plus fortement Ho dans le second cas que dans le premier. En effet, 
considérons des intervalles de pari pour z, de niveau croissant à partir de 0,95. 


fPo.97 

IPojç 

IPo,999 


Z L Z-} 


E ~ 



L J 

r n 



[ 

r 

1 


[ 

r 

J 


C 




On observe que z.\ est à l’extérieur des intervalles de pari jusqu’au niveau 0,97, que zi est à 
l’extérieur des intervalles de pari jusqu’au niveau 0,999. Cela signifie que, en ce qui 
concerne la première expérience, Ho aurait été rejetée même si on avait limité le risque 
d’erreur à 1 - 0,97 = 0,03 (soit 3 %), et que, en ce qui concerne la seconde, Ho aurait été 
rejetée même si on avait limité le risque d’erreur à 1 - 0,999 = 0,001 (soit l%o). C’est ce 
pseudo risque d’erreur que l’on appelle degré de signification et qui mesure la force avec 
laquelle on rejette Ho. 

Ce degré de signification est noté p : plus il est petit, plus confortable est le rejet. 

Si l’on veut une définition plus précise : 
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Définition 

Lorsque Ho est rejetée, on appelle degré de signification d’un test le risque associé au plus 
grand intervalle de pari qui ne contient pas le paramètre calculé z. 

Calcul pratique du degré de signification 

On cherche dans la table la valeur de p pour laquelle u p = z, u p étant du type u a 
Exemple: z = 2,43. 

On trouve dans la table « 0,02 = 2,32 et no , 01 = 2,57 
alors P e [°= 01 = °. 02 l 

La valeur exacte ne se trouve pas dans la table : on dira p < 0,02. Le plus grand intervalle de 
pari ne contenant pas zest de niveau > 0,98, ou au risque < 0,02. 

La plupart des résultats de tests s’expriment avec ce degré de signification : 

• On réalise le test (avec un risque a = 0,05) 

• Si Ho est rejetée, on calcule ou on évalue le degré de signification p 

• Si Ho n'est pas rejetée, on ne calcule pas p. 

1 1. 2.4.2 Orientation du rejet 

Le rejet de Ho correspond généralement à l’une des deux situations : 

• rejet car z est trop petit (inférieur à la borne inférieure de l'intervalle de pari) 

• rejet car z est trop grand (supérieur à la borne supérieure de l'intervalle de pari) 

Dans le cadre de l’exemple précédent, chacune de ces situations correspond généralement à 
des commentaires radicalement différents. Par exemple : 

z est trop petit <=> le traitement est efficace 

z trop grand « le traitement est nuisible 

11.3 - Rappels et précisions 

1. LES TESTS PRENNENT EN COMPTE DES HYPOTHESES SYNTHETIQUES 

On a vu que les tests reposent sur l’énoncé de deux hypothèses exclusives. Il y a 
parfois beaucoup de chemin à parcourir entre la formulation d’un problème 
médical et sa formulation en termes statistiques. Reprenons l’exemple des souris 
de ce chapitre. Le problème fondamental est celui de l’activité du traitement. Cette 
activité peut avoir bien d’autres manifestations que la modification de la fréquence 
d’apparition des cancers. On peut penser à un effet portant sur l’âge de survenue 
de la maladie, portant sur la vitesse de développement des tumeurs etc. . . On ne 
peut répondre simultanément à toutes ces questions, par l’intermédiaire d’un test 
du moins : les tests ne permettent de répondre qu’à des questions simples. 

2. ON NE CHOISIT PAS LE SEUIL DE SIGNIFICATION 

Que dirait-on d’un médecin annonçant : j’aime le risque alors j’ai choisi un risque 
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a de 0,4 et le traitement que je propose est efficace (ou actif) à ce risque ? 
a = 0,05 est conventionnel 

3. ON NE DIT PRATIQUEMENT JAMAIS : L’EXACTITUDE DE 
L’HYPOTHESE NULLE EST DEMONTREE 

4. ON N’ENCHAINE PAS LES TESTS DE FAÇON INCONSIDEREE 
En effet, les risques de conclusion à tort augmentent alors. 

Par exemple, supposons que l’on veuille tester l’égalité à une valeur donnée de 
deux proportions (ex : succès d’une intervention chirurgicale dans deux services 
hospitaliers, le pourcentage de succès sur la France étant par ailleurs connu 
(données de l’année précédente par exemple)). Que se passe-t-il si l’on effectue 
deux tests successifs dont les hypothèses nulles sont : 
service 1 : cpi = (po ; puis service 2 : (p 2 = cpo- 

Le risque de première espèce global de la procédure exprime la probabilité de dire 
au moins une fois (soit au cours du premier test soit au cours du second) Hi alors 
que Ho est vraie les deux fois : 

FV( conclure Hi au moins une fois si Ho est vraie) = 1 - Pr( ne rejeter Ho aucune des 
deux fois si Ho est vraie) 

Or Pr( ne pas rejeter Ho si Ho est vraie) = 1 - a 

Donc Pr(ne rejeter Ho aucune des deux fois si Ho est vraie) = (1 - a) 2 

d’où un risque total = 1 - (1 - a) 2 

Exemple 

Si a = 0,05, le risque global est environ 0,10. 

Cette situation s’aggrave si le nombre de tests s’accroît. Ainsi, dans le cas de 

o 3 services le risque global est 0,14 

o 10 services le risque global est 0,40 

o 100 services le risque global est 0,994 

Cela signifie par exemple que dans le cas où 10 services sont à comparer à une 
référence il y a 4 chances sur 10 pour qu’au moins une fréquence observée s’écarte 
de façon significative de la valeur de référence, alors qu’en réalité tous les résultats 
sont homogènes. Si l’on prend la fréquence observée la plus différente de la valeur 
de référence, le test permettra de conclure, à tort, avec une probabilité supérieure à 
0,4. 

En fait, lorsque l’on désire faire des comparaisons multiples, des tests spécifiques 
doivent être utilisés de façon que les conclusions puissent être tirées avec un risque 
d’erreur a global de 5 %. 

5. IL EST DANGEREUX ET ERRONE DE CHOISIR LES HYPOTHESES AU VU 
DES DONNEES 

Lorsque l’on opère de cette façon, on a en réalité réalisé plus ou moins 
consciemment un nombre indéterminé de tests que l’on a jugés non concluants. 

LA STRATEGIE D’ANALYSE DES DONNEES DOIT ETRE FIXEE 
CLAIREMENT AVANT LA REALISATION DE L’EXPERIENCE 
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Chapitre 12 - Quelques tests usuels 


12.1 - Tests concernant des variables de Bernoulli 

12.1.1 - Test d’égalité d’une proportion « vraie » à une valeur donnée 
(ou test de comparaison d’une proportion observée à une valeur donnée) 

12. 1. 1. 1 Mise en place du test 


Exemple : les souris du chapitre précédent 


1. Les hypothèses en présence 


Ho (hypothèse nulle) : la proportion « vraie » (de souris cancéreuses dans la 
population des souris traitées) est égale à cJ)o (proportion hypothétique ou supposée 
qu'on se donne pour le test). 

Hi (hypothèse alternative) : la proportion « vraie » est différente de 4>o- 
Notations : 

Ho : c}) = <J>o 
Hi : ï 4>o 

2. Définition du paramètre 


Z = 


P n ~ % 



où P n représente la variable aléatoire proportion. 

Sous Ho, Z est à peu près distribuée selon N(0, 1) 

[conditions de validité : nc|>o > 5 et n(l - 4>o) > 5] 

3. Choix d'un seuil de signification a 

IP 

Construction de l'intervalle de pari de niveau 1 - a : - -a 

Exemple : a = 0,05 IPo, 95 = [-1,96 ; 1,96] (lu dans la table de la distribution normale) 

4. Mise en place de la procédure de décision 

Lorsque les données seront disponibles on obtiendra une valeur du paramètre Z, 
soit : 


Z 


;*-<Po 

Wu-Vo) 


n 
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z £ IP 

Si : -a on rejette Ho et on dit : au risque a l'hypothèse d'égalité de la 
proportion « vraie » et de la valeur donnée est fausse ; ou, au risque a, la proportion 

« vraie » est différente de la valeur donnée. 

Z E TP 

Si " - on ne rejette pas Ho ou « on ne conclut pas ». 

5. Recueil des données. Conclusion 


Rappelons les conditions de validité : nc|>o > 5 et n(l - 4>o) > 5 

12. 1. 1.2 Autre interprétation du paramètre z 


Regardons la forme du paramètre z. On conclut (c’est-à-dire on rejette Ho) 


si 


. Z Ê [-U 


a 3 a 


U 1 , , v J. . Izl > u„ . . 

c est-a-dire si a soit si : 


\p - <Po| > “a,] 

c’est-à-dire si la proportion observée p est suffisamment différente de cpo- Voilà pourquoi on 
dit que l’on compare p et cpo. C’est pourquoi on dit aussi, lorsque Ho est rejetée : 

La proportion observée est significativement différente de la valeur donnée, au risque a 
(0,05), ou encore : la différence entre p et cpo est significative. Ce qui indique une différence 
entre la valeur donnée et la proportion « vraie » cp. 

Lorsque Ho n'est pas rejetée, on dit : la proportion observée n'est pas significativement 
différente de la valeur donnée. 


Très important : une même différence I p - cpol peut être ou non significative selon la valeur 
de n. 

Si l’on vous demande : p = 0,25 et 0,2, sont-elles significativement différentes, ne répondez - 
pas ; demandez : quelle est la taille de l’échantillon sur lequel p a été calculé, à quel risque ? 

12.1.1.3 Nombre de sujets nécessaires 

Si on considère qu’en réalité cp = cpi, le nombre de sujets nécessaires pour obtenir une 
puissance 1 - (3 ((3 < 0,5) est approximativement donné par 

[ 1 ,96 ,/q> 0 ( i - q> 0 ) + ^/q>!( 1 - <Pj) f 

If iS 

[<p 0 -<Pir 

Conditions de validité : ncpo > 5 et n{\ - cpo) > 5 
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Chapitre 13 - Tests concernant des variables 

qualitatives 

Introduction 

On a jusqu’à présent complètement négligé les variables qualitatives à plus de deux 
modalités. On a en effet toujours parlé de moyenne, et cette notion n’existe pas pour 
les variables qualitatives, sauf pour celles à deux modalités grâce à un artifice de 
codage. Il n’y a pas d’instrument permettant de résumer la distribution d’une variable 
qualitative ; il faut considérer la distribution dans son ensemble, c’est-à-dire 
l’ensemble des probabilités pour que telle ou telle modalité se réalise. Pourtant des 
problèmes de choix d’hypothèses se posent également dans le cas de telles variables 
ou tels caractères (ex : la répartition [distribution] de la couleur des cheveux diffère -t- 
elle chez les habitants de tel département et de tel autre ?). Si la répartition du 
caractère est connue dans une des deux populations, on aura à comparer une 
répartition « observée » à une répartition donnée. Si les deux répartitions sont 
inconnues, on aura à comparer deux répartitions « observées ». Ces problèmes sont 
respectivement les homologues des tests de comparaison d’une moyenne à une valeur 
donnée, de comparaison de deux moyennes. Il existe des tests adaptés à chacun de ces 
cas. 


13.1 - Comparaison d’une répartition observée à une répartition donnée ou test du yl d’ajustement 
13.1 - Comparaison d’une répartition observée à une répartition donnée ou test du yl d’ajustement 


Supposons que l’on souhaite savoir si la répartition de la couleur des cheveux dans la 
population des habitants du département A diffère de la répartition de la couleur des 
cheveux dans la population française, cette dernière répartition étant supposée donnée. 
Supposons qu’il y ait k couleurs répertoriées. On est alors amené à considérer une variable 
qualitative à k modalités. Notons cp* la probabilité de survenue de l’événement 
« la i ème modalité est observée ». 

Exemple : 

(pi = probabilité qu’un individu tiré au hasard dans le département A ait les cheveux blonds 
92 = probabilité qu’un individu tiré au hasard dans le département A ait les cheveux bruns 
etc... 

Notons par ailleurs (p m la proportion « vraie » de la modalité i dans la population française. 

On s’apprête à réaliser une expérience sur n individus à l’issue de laquelle on disposera 
d’un ensemble de Oi ( Oi = nombre d’individus présentant la modalité i du caractère étudié, 
parmi les individus de l’échantillon). 
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13.1.1 Les étapes de mise en œuvre 


1. Les hypothèses en présence 


Deux hypothèses sont en présence : 

i. la répartition « vraie » de la variable dans la population étudiée coïncide avec 


la répartition donnée (hypothèse nulle Ho) 
ii. les répartitions diffèrent (hypothèse alternative Hi) 

Avec les notations précédemment introduites, cela s'écrit : 

Ho : hypothèse nulle : 4>/ = 4>w pour tous les / de 1 à k. 

Hi : hypothèse alternative : 4 ), * 4 \>hi pour au moins une modalité, c'est-à-dire pour au 
moins un /. 

2. Construction du paramètre 

On a déjà mis en place ce test dans le cas d'une variable (0 - 1) c'est-à-dire d'une 
variable à deux modalités. Dans ce cas, les hypothèses en présence étaient bien du 
type ci-dessus c'est-à-dire 
Ho : 4 ) = 4 >m et 1 - 4> = 4 > /i2 = 1 - 4>m 

ce qui s'écrit avec les nouvelles notations : 

4>i = 4>hi et 4)2 = 1 - 4 >m 

Mais on n'avait retenu que la condition 4) = 4>^i (en fait 4) = 4)o) car dans ce cas les 
deux conditions ci-dessus sont redondantes. 

Le paramètre calculé retenu était : 


P-Wki 


Z 



Calculons son carré 


U = + — 

<Pm) <Pm 1 - <P M 


« O - i ) n(P ~ <Pm ) , n(P ~ <Pm ) " 


Z 


Z 
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Or np = nombre d'individus observés présentant la valeur 1 c'est-à-dire la modalité 1 
de la variable ; or sous Hola probabilité de cette modalité est $hi. On s'attend donc à 
observer nfyhi individus présentant cette valeur. Ce nombre d'individus attendu 
s'appellera effectif attendu ou calculé de la première modalité et sera noté Ai. 

De la même façon, n( 1 - p) = nombre d'individus observés présentant la valeur 0 
c'est-à-dire la modalité 2 de la variable ; or sous Ho la probabilité de cette modalité 
est c \>h 2 = 1 - 4>m. On s'attend donc à observer nc^individus présentant cette valeur. 
Ce nombre d'individus attendu s'appellera effectif attendu ou calculé de la seconde 
modalité et sera noté Ai. 

(O^AJ 2 (0 2 -A 2 ) 2 


où les 0/ représentent les effectifs observés dans les différentes modalités, 
les Ai représentent les effectifs mj^/dits prévus ou calculés ou ATTENDUS dans les 
différentes modalités. 

GENERALISATION 

Lorsque les variables considérées ont plus de deux modalités, on généralise le calcul 
ci-dessus et on retient le paramètre suivant : 


2 - 


D'où 


tC 


o = y 

2—i 

i = 1 





où la somme s'étend à toutes les k modalités de la variable. 

On rappelle que les O, sont les effectifs observés, et que les A valent nfyhi. 

On remarque que Q chiffre l'écart entre ce qui est prévu par l'hypothèse Ho et ce qui 
est obtenu ; cet écart se fonde naturellement sur les différences 0/ - nfyhi car nfyhi est 
le nombre attendu d'individus présentant la modalité /. 

Exemple : si <J >« = 0,4, sur 100 individus on en attend 40 présentant la modalité /. 
C'est le nombre que l'on aurait si la distribution d'échantillonnage coïncidait avec la 
distribution hypothétique. 

Par ailleurs on a pu montrer (résultat dû à Pearson) que sous Ho (et si tous les A, > 5) 
ce paramètre a une distribution qui ne dépend que du nombre de modalités, k. 

Cette distribution porte le nom de DISTRIBUTION DE x 2 - 

Si bien que l'on peut former - grâce encore à une table - un intervalle de pari de 
niveau donné relatif à cette variable. 
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RETENONS : 

CONDITIONS DE VALIDITE : TOUS LES A DOIVENT ETRE AU MOINS EGAUX A 5 
3. Intervalle de pari 

IP 

a étant choisi (0,05), construction de l'intervalle de pari : -a 
La variable x 2 a l'allure présentée figure 13. On remarque qu'il serait stupide de 
choisir l'intervalle de pari centré dessiné sur cette figure car alors des valeurs 
numériques voisines de zéro pour la valeur Q c du paramètreQ seraient dans la région 
critique du test ; or des valeurs proches de zéro sont plutôt compatibles avec Ho d'où 
le choix suivant (voir figure 14) : 

®i-« = 

K 

C'est cette valeur, notée * - a qui est lisible directement dans une table. 

Remarque : notez que cet intervalle, bien que non symétrique autour de la 
moyenne, respecte la définition d'un intervalle de pari donnée section 9.4.1 . 

0.15 T 




Figure 14 : distribution de x 2 
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5. Usage de la table 

Cette table comporte - comme celle du t de Student - une entrée entière appelée 
nombre de degrés de liberté (ddl). On montre que pour le test envisagé ici 


nombre de degrés de liberté = nombre de modalités - 1 


Exemple : /<5;o,o5 (5 ddl, si 6 modalités) = 11,07 
La suite de la mise en place de ce test est usuelle. 

6. Règle de décision 

Si -Addia on ne conclut pas 

Si ~c M ; a (_| 0 est rejetée. Cela signifie que l'on conclut que la répartition du 
caractère étudié (par exemple la couleur des cheveux dans le département A) ne 
coïncide pas - ou ne s'ajuste pas - avec la répartition donnée (par exemple la 
répartition de la couleur des cheveux dans la population française). On admet, en 
formulant cette conclusion, un risque d'erreur égal à a. 

7. Recueil des données et conclusion 

Exemple numérique : le tableau ci-dessous présente une application numérique de 
l'exemple considéré. 



couleur des cheveux 

blonds 

bruns 

roux 

total 

effectifs observés 

(0/) 

25 

9 

3 

37 

(n) 

effectifs attendus 

(Aj — m\>hi) 

14,8 

11,1 

11,1 

37 

répartition donnée 

(<M 

0,4 

0,3 

0,3 

1 


8. Les conditions de validité sont vérifiées (A > 5). 

On obtient ici : 

p _ (25-14,8) 2 + (9-ll,l) 2 + <3-ll,l) 2 _ 

14,8 11,1 11,1 

On sait que Q est distribué selon un x 2 à (3-1) degrés de liberté ; on lit dans la table : 
K2-,o,o5 = 5,99. 
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Ainsi, la valeur calculée n'appartient pas à l'intervalle de pari : on conclut que la 
répartition du caractère ne coïncide pas avec la répartition donnée. 

13.1 - Comparaison d’une répartition observée à une répartition donnée ou 
test du x 2 d’ajustement 

13.1.2 - Cas particulier : variable à deux modalités 


On a vu que le paramètre du test Q généralise l’expression du carré du paramètre Z utilisé 
pour la comparaison d’une proportion observée à une valeur donnée. Dans le cas d’une 
variable à deux modalités ( k = 2), ces deux paramètres sont égaux : Q = Z 2 . 

En outre, et sinon il y aurait incohérence, on peut vérifier l’égalité suivante : 

T| 


Exemple : pour a = 0,05 A'uo.os = 3,84 = (1,96) 2 

Ainsi, pour comparer une répartition observée à une répartition donnée, dans le cas d’une 
variable à deux modalités, on dispose de 2 tests équivalents, l’un fondé sur la distribution 
normale, l’autre fondé sur la distribution du x 2 à 1 d.d.l. (qui est en fait la distribution du 
carré de N(0, 1)). 

On peut utiliser l’un ou l’autre de ces tests indifféremment. 

Exemple : Reprenons l’exemple du chapitre JJ_ 

Une race de souris présente un taux de cancers spontanés de 0,2. Sur 100 souris traitées on 
observe 34 cancers soit p = 0,34. La différence est elle significative ? 

• test de comparaison : 




Z = 


0 .34 - 0.2 

[0.2 x O.S 
100 


test du x 2 : 


3=5 



cancer 

absence de 

cancer 


répartition théorique 

0,2 

0,8 


effectifs attendus 

20 

80 


effectifs observés 

34 

66 

100 

(effectif total) 



(34-20) 2 (66-SO) 2 

2Ô SÔ 


12.25 = l'3.5ï : 
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Remarque : On parle souvent de ce test sous la terminologie « test du yj d’ajustement » 
pour exprimer qu’il met à l’épreuve l’ajustement - la compatibilité - entre une répartition 
observée et une répartition donnée. 

13.2 - Comparaison de plusieurs répartitions observées ou test 

du x 2 d’homogénéité 

On reprend l’exemple précédent concernant la répartition de la couleur des cheveux mais 
sans plus supposer que l’une de ces répartitions est connue ; il s’agit par exemple des 
répartitions de ce caractère dans deux départements. On souhaite donc comparer deux 
répartitions observées. Pour cela, on s’apprête à réaliser une expérience mettant enjeu deux 
échantillons, un échantillon de m individus issu de la population des habitants du 
département 1 , et un échantillon de m individus issu de la population des habitants du 
département 2. A l’issue de cette expérience on disposera d’un ensemble d’effectifs 
observés, notés de la façon suivante : 

• Ou est le nombre d’individus du premier échantillon présentant la modalité i de la 
variable. 

• O 2 i est le nombre d’individus du second échantillon présentant la modalité i de la 
variable. 

Le test se met en place de la façon suivante : 

1 . Les hypothèses en présence 

Ho : les répartitions « vraies » de la variable sont identiques dans les deux populations 
Hi : les répartitions « vraies » sont différentes 

Ces hypothèses se schématisent par : 

Ho : (pu = (p 2 i pour toutes les modalités i. 

Hi : (pu ^ (p 2 / pour au moins une modalité i. 

2. Construction du paramètre 

C’est encore ici le point délicat. La solution ressemble dans son approche à celle du 
problème de la comparaison de deux pourcentages. Clé du principe : on mélange les 
deux populations pour calculer une pseudo-répartition théorique. On se retrouve alors 
pratiquement dans la situation du paragraphe précédent. Cela se verra mieux sur un 
exemple. On va faire, pour des raisons de simplicité de calcul, une petite entorse à 
notre façon de procéder, et directement évaluer le paramètre dont on connaît la loi. 

3. On construit ce que l’on appelle un tableau de contingence qui contient les résultats 
expérimentaux. 

On a procédé à une expérience portant sur 37 individus issus de la population 1 et 40 
individus issus de la population 2. Les résultats sont les suivants : 

Tableau 4 : effectifs observés (On et O 2 /) 
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blonds 

bruns 

roux 

nombre total 

échantillon 1 

25 

9 

3 

37 = m 

échantillon 2 

13 

17 

10 

40 = ii2 


4. On construit une pseudo-répartition de référence, en mélangeant les résultats 

expérimentaux, c’est-à-dire en oubliant leur origine (population 1 ou population 2). 
On obtient les résultats suivants, en termes d’effectifs (première ligne), puis en termes 
de fréquences (deuxième ligne). 



Tableau 5 

: répartition de « 

référence » 


blonds 

bruns 

roux nombre total 

mélange 

38 

26 

13 77 

fréquences 

38/77 = 0,49 

26/77 = 0,34 

13/77 = 0,17 


5. Ces trois fréquences, 0,49, 0,34, 0,17, vont jouer maintenant le rôle des probabilités 
hypothétiques tp m de la section 13.1 . Pour la commodité de l’écriture, on les note 
respectivement pi,p 2 ,p 3 . 

6. On forme le tableau des effectifs attendus. 

Si l’hypothèse nulle est juste, c’est-à-dire si les répartitions de la couleur des cheveux 
coïncident dans les deux départements, on s’attend à trouver des effectifs calculés 
comme suit : 

effectif attendu pour la modalité i (modalité 1 = blond, modalité 2 = brun, modalité 
3 = roux) dans l’échantillon j (j - 1 ou 2) : rij multiplié par p, 

Par exemple le nombre attendu d’individus bruns dans l’échantillon de la première 
population est : 37 x 0,34 = 12,6. 

En effectuant systématiquement ces calculs, on obtient le tableau des EFFECTIFS 
ATTENDUS. 


Tableau 6 : effectifs attendus (Au et Aii) 



blonds 

bruns 

roux 

échantillon 1 

18,1 ( mpi ) 

12,6 (mp2) 

6,3 (mp3) 

échantillon 2 

19,6 (mpi) 

13,6 (mpi) 

6,8 (mps) 


7. On calcule finalement le paramètre du test 
On montre que le paramètre adapté à ce test est : 


■y 



où k demeure le nombre de modalités de la variable. 


Nursunity 


Page 105 


On a souvent recours à une expression plus compacte de l’expression ci-dessus et on 
écrit : 



uomtrï ds cases du iztlîau {Q 

z '- 2 

J - 1 





4 


8 . 

MAIS ICI LA SOMMATION S’ETEND A TOUTES LES CASES DES 
TABLEAUX, numérotées grâce à l’indice j. 

Exemple : dans l’exemple traité il s’agira donc de calculer une so mm e de 6 termes. 

On montre que, si Ho est vraie, Q est distribué comme un yj à (3 - 1) x (2 - 1) degrés 
de liberté [3 est le nombre de modalités, et 2 le nombre de répartitions] 

La VALIDITE de ce résultat suppose que tous les effectifs attendus Aj soient au 
moins égaux à 5. 


GENERALISATION 


Les calculs ci-dessus se généralisent à un nombre quelconque de modalités k, à un 
nombre quelconque de populations m. 

Le paramètre Q à calculer a alors la forme ci-dessus, où la somme 
comprend kxm termes. 

La distribution de Q, sous Ho est alors un y? à(k - 1 )x(m - 1) degrés de liberté. 
Les conditions de validité du test sont : Aj > 5, 1 <j < km 

9. La suite des étapes de mise en œuvre est classique. 


La valeur observée de Q, notée Q c , sera comparée à la valeur Xddi; 0,05 : 


O 


O 


SI 


O <K 


ddl:0_0Ü 


on ne conclut pas. Il n’est pas démontré que les deux 


répartitions « vraies » diffèrent. 


si 


0.>K. 


ddtÜ.Oô 


on conclut que les deux répartitions observées diffèrent 


significativement. 


Suite de l’exemple : on obtient : 


_ (25 - 18.1) . (9 — 12,6) , (3 -63) , (13 - 19,6)“ (17- 13,6)“ (10 -6,8Ï 

O r = ^ ^ ^ ^ + ■ 

,f% P v 


1S.1 


12.6 


6.3 


19.6 


13.6 


6.S 


O f = 9.96 
soit : ~ c 


Or : Ki ; o,05 = 5,99 => rejet de Ho. Les répartitions observées de la couleur des cheveux 
diffèrent significativement dans les deux populations. 


Remarque 1 : Ce test s’appelle aussi test du x 2 d’homogénéité de plusieurs 
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répartitions. 


Remarque 2 : Cas particulier de deux variables à deux modalités : dans le cas où 
l’on considère deux variables à deux modalités, c’est-à-dire dans le cas où le tableau 
de contingence est à deux lignes et deux colonnes, on observe que le problème se 
réduit à un problème de comparaison de deux proportions observées. On montre que, 
dans ce cas, la valeur de Q coïncide avec le carré de la valeur de Z, Z étant le 
paramètre formé pour comparer directement ces proportions (voir chapitre 12) . 


13.3 - Test d’indépendance entre deux variables qualitatives 

Reprenons l’exemple précédent et supposons que les populations 1 et 2, plutôt que de 
correspondre à des individus habitant le département 1 et le département 2, soient en fait : 

• population 1 : population des individus ayant les yeux bleus 

• population 2 : population des individus ayant les yeux verts 

La question que l’on aurait résolue dans le paragraphe précédent aurait été : 

la répartition de la couleur des cheveux diffère-t-elle dans les populations d’individus aux 
yeux bleus ou verts. Ou encore, la répartition de la couleur des cheveux diffère-t-elle selon 
la couleur des yeux ? Autrement dit : la variable couleur des cheveux dépend-elle 
statistiquement de la variable couleur des yeux ? 

Maintenant supposons que l’on veuille répondre à cette question. Plutôt que de prendre un 
échantillon de la population des individus aux yeux bleus et un autre échantillon issu de la 
population des individus aux yeux verts, autant prendre un échantillon de la population 
générale (c’est-à-dire quelle que soit la couleur de ses yeux) et observerconjointement la 
couleur des cheveux et la couleur des yeux. Vues comme cela, les deux variables jouent bien 
des rôles symétriques et le problème est donc de mettre à l’épreuve leur indépendance. 

1 . Les hypothèses en présence. 

On formule naturellement deux hypothèses : 

Hypothèse Ho 

les deux variables étudiées (couleur des cheveux, couleur des yeux) sont 
indépendantes. Sous cette hypothèse, le fait d’avoir observé chez un individu la 
couleur de ses cheveux (respectivement la couleur de ses yeux) n’apporte aucune 
information sur la couleur de ses yeux (respectivement la couleur de ses cheveux). 

On pourra se reporter au chapitre 6 dans lequel ont été commentées ces notions 
d’indépendance. 

On notera que, comme dans tous les cas rencontrés jusqu’ici, cette hypothèse est une 
hypothèse fine qui engage un ensemble d’égalités. 

En effet, on sait que l’indépendance s’exprime par : 

Pr( la modalité de la couleur des cheveux est / et la modalité de la couleur des yeux 
est c) = Pr( la modalité de la couleur des cheveux est /) x Pr{ la modalité de la couleur 
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des yeux est c), et ceci pour tous les choix possibles de l et c. 

Remarque : on pourra vérifier que parmi les (nombre de modalités de la couleur des 
cheveux x nombre de modalités de la couleur des yeux) égalités qui en résultent, 
certaines sont redondantes, et que (nombre de modalités de la couleur des cheveux - 1) 
x (nombre de modalités de la couleur des yeux - 1) égalités suffisent à exprimer les 
mêmes conditions. 

Hypothèse Hi 

les deux variables étudiées ne sont pas indépendantes. 

Cette hypothèse exprime le contraire de Ho. 


TRES IMPORTANT (des erreurs sont souvent commises) 
HYPOTHESE NULLE : LES DEUX VARIABLES SONT INDEPENDANTES 
HYPOTHESE ALTERNATIVE : LES DEUX VARIABLES SONT LIEES 


2. Le paramètre du test 

Le paramètre est encore Q , et s’exprime exactement comme précédemment, c’est-à- 
dire : 



nombre ds cases du tableau 



T 




Ici le nombre de cases du tableau de contingence est égal au produit du nombre de 
modalités de la première variable et du nombre de modalités de la seconde variable. 
Les effectifs attendus s’obtiennent exactement comme dans le cas du paragraphe 
précédent, ainsi qu’on peut le voir sur l’exemple numérique ci-dessous. 

Un exemple numérique 

Le tableau ci-dessous montre un exemple de tableau de contingence (D. 

Schwartz, Méthodes statistiques à l ’ usage des médecins et des biologistes, 
Flammarion (collection statistique en biologie et médecine), 3 e édition, p79) ; cet 
exemple est similaire aux précédents, si ce n’est que l’on a considéré un plus grand 
nombre de modalités pour la variable couleur des cheveux, et que la nouvelle variable 
introduite (couleur des yeux) comporte trois modalités. Ces modalités remplacent les 
échantillons considérés dans la section 13.2 . Ainsi, la modalité « bleu » par exemple 
peut être lue : « échantillon issu de la population des individus aux yeux bleus ». La 
taille de cet échantillon n’est cependant plus maîtrisée. 
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Couleur des 

yeux 

Couleur des cheveux 

fréquence 


blonds 

bruns 

roux 

noirs 

total 


bleus 

25 

9 

7 

3 

44 

44/124 

gris 

13 

17 

7 

10 

47 

47/124 

marrons 

7 

13 

5 

8 

33 

33/124 

total 

45 

39 

19 

21 

124 


fréquence 

45/124 

39/124 

19/124 

21/124 

124/124 



3. Les effectifs attendus s’obtiennent co mm e précédemment. Ainsi, l’effectif attendu 
relatif au couple « blonds, marrons » sera : 45/124x33/124x124 = 1 1,9. 

REMARQUES 

i. Pour alléger les calculs, on peut remarquer que l’effectif attendu relatif à la 
cellule localisée ligne /, colonne c est égal au rapport 

■ du produit du total de la ligne l et du total de la colonne c, 

■ et du total général. 

ii. La somme des effectifs attendus, soit en ligne, soit en colonne, coïncide avec 
les mêmes sommes sur les effectifs observés. Cette remarque permet une 
vérification partielle des calculs. 

iii. Dans la présentation des calculs, on a procédé au « mélange » des résultats sans 
plus tenir compte de la couleur des yeux (ce qui conduit à sommer les lignes du 
tableau). On peut de façon équivalente mélanger les résultats expérimentaux 
sans plus tenir compte de la couleur des cheveux, ce qui conduira à sommer les 
colonnes du tableau de contingence pour obtenir la répartition de référence. On 
pourra vérifier que les résultats du calcul sont strictement les mêmes, ce que 
l’on attend compte tenu du rôle symétrique joué par les deux variables 
étudiées. 

SOUS L’HYPOTHESE NULLE D’INDEPENDANCE entre les deux variables, Q EST 

DISTRIBUE SELON un y 2 à : 

(nombre de modalités de la première variable - 1) x (nombre de modalités de la seconde 

variable - 1) 

DEGRES DE LIBERTE. 

Les CONDITIONS DE VALIDITE sont encore : Aj > 5. 


4. La suite des étapes est habituelle 

En particulier, la règle de décision s’établit co mm e suit : 

K 

o si la valeur calculée de Q, notée Q c , est inférieure à - a , on ne rejette pas 
l’hypothèse d’indépendance des deux variables. 
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K 

o si la valeur calculée Q c est supérieure à , on rejette l’hypothèse 

d’indépendance des deux variables. On dira alors que les deux variables sont 
liées, au risque a. 


Exemple : 

Dans l’exemple ci-dessus, la valeur de Q c , résultant de la sommation de 12 termes, est 
15,1. 

K r. r.- 

Le nombre de degrés de liberté est : (4 - l)x(3 - 1) = 6, la valeur de • ■ associée 
étant 12,6 (lue dans une table). On rejette donc ici l’hypothèse d’indépendance : 
couleur des cheveux et couleur des yeux sont liées, ou encore sont dépendantes. 
Voyons une illustration de cette dépendance. Sur la base des données observées on a : 
Pr(yeux bleus) = 44/124 = 0,35 
Pr(yeux bleus / cheveux blonds) = 25/45 = 0,56 

La connaissance de la couleur des cheveux (ici la modalité « blond ») modifie la 
répartition de la couleur des yeux (ici la fréquence de la modalité « bleu » qui évolue 
de 0,35 à 0,56). Le test indique que cette modification est significative. En réalité la 
valeur de Q, ci-dessus chiffre dans leur ensemble les différences entre Pr{A / B) 
et Pr(A), c’est-à-dire les écarts de Pr(A et B) par rapport au produit Pr{A)Pr{B), 
où A est un événement relatif à la couleur des yeux et B un événement relatif à la 
couleur des cheveux. 
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Chapitre 14 - Liaison entre deux variables continues : 

Notion de corrélation 


14.1 - Introduction 


Nous avons rappelé dans le chapitre précédent la notion fondamentale d’indépendance entre 
deux variables qualitatives et vu la façon dont cette indépendance pouvait être mise à 
l’épreuve lors d’une expérience. Dans le chapitre 12, les tests mis en œuvre faisaient 
intervenir une variable quantitative continue et une variable qualitative encore jugées dans 
leurs interdépendances. Il se trouve qu’il existe une autre classe de problèmes mettant enjeu 
encore deux variables aléatoires, mais cette fois-ci, deux variables continues. Considérons, 
par exemple, deux variables aléatoires, l’insuffisance rénale (avec deux valeurs ou modalités 
présence-absence) et l’insuffisance hépatique (avec les deux mêmes modalités). Supposons 
que l’on connaisse un indicateur de la fonction rénale (ou de certains de ses aspects), la 
clairance à la créatinine par exemple et un indicateur de la fonction hépatique (ou de certains 
de ses aspects) la bilirubinémie et que le diagnostic d’insuffisance rénale soit porté lorsque 
la clairance est inférieure à un seuil, celui d’insuffisance hépatique lorsque la bilirubinémie 
est supérieure à un autre seuil. On sait résoudre (voir chapitre J_3) la question de savoir si les 
variables insuffisance rénale et insuffisance hépatique sont indépendantes ou liées. 

Toutefois, compte tenu des précisions données sur l’origine des diagnostics d’insuffisance 
rénale et d’insuffisance hépatique, on est tenté de reformuler le problème posé en ces 
termes : y a-t-il un lien entre les variables aléatoires clairance à la 

créatinine et bilirubinémie ? Un niveau élevé de l’une est-il « annonciateur » d’un niveau 
élevé de l’autre ? Ou encore : la connaissance du niveau de l’une modifie-t-elle l’idée que 
l’on se fait du niveau de l’autre, non encore observée ? Cette dernière formulation est très 
proche de la formulation utilisée pour discuter de l’indépendance entre événements : la 
connaissance du fait qu’un événement s’est réalisé (maintenant un niveau de clairance 
connu) modifie-t-elle la plausibilité d’un autre événement (maintenant la bilirubinémie) ? 


Les situations dans lesquelles on se pose naturellement la question de savoir si deux 
variables continues sont liées sont extrêmement fréquentes. Voilà quelques exemples : 

• la consommation de cigarettes (quotidienne ou cumulée) et la capacité respiratoire 
sont-elles liées ? 


• la gastrinémie et la quantité de cellules ECL sont-elles liées ? 

• les valeurs de glycémie obtenues selon deux méthodes de dosage sur les mêmes 
échantillons sanguins sont-elles liées [ici, il faut l’espérer]. 

14.2 - Abord du problème 

Considérons deux variables aléatoires continues X (créatininémie) et Y (bilirubinémie). 
Imaginons que nous ayons réalisé une expérience consistant en l’observation conjointe 
du niveau de ces deux variables sur un ensemble (échantillon) de n sujets. On dispose 
ainsi d’un ensemble de couples de valeurs xi, yi. La représentation naturelle - sinon la 
meilleure - de ces résultats est donnée dans la figure ci-dessous ; chaque couple de 
valeurs obtenu chez chaque individu est représenté par un point de coordonnées 
(créatininémie-bilirubinémie) . 


On lit sur un tel dessin, au moins grossièrement, le domaine des valeurs possibles de X, 
le domaine des valeurs possibles de Y. 


Nursunity 


Page 111 


Intéressons nous à un nouvel individu ; ne mesurons chez lui que la valeur de la 
créatininémie, xo. Que peut-on dire alors, sur la base de cette connaissance et sur la base 
de l’expérience ci-dessus concernant le domaine des valeurs possibles de Y pour ce 
même individu ? On peut proposer la réponse géométrique ou visuelle indiquée sur la 
figure ci-dessous. 


^ v (bi linibin ëm i e) 


domaine des 
valeurs de Y 


x 

x 

x 

x 


x x x 
x x 


X 


X 

_ 3 X 3E * x X 
X x - V X 


x x: 

X 


X 

X 


X 


X A X 

X x x 


domaine des 
valeurs de JC 


x (crëatimnëmi e) 


^ y (bilirubinëmi e) 



Le nouveau domaine possible - sachant xo - est très voisin du domaine initial ; ceci se 
reproduit pour toute valeur de.ro. Il est alors clair que dans cet exemple, la connaissance 
de X n’apporte pas d’information sur celle de Y. On a ici une situation visuelle d’un cas 
où les deux variables X et Y sont indépendantes. On pourrait renverser le rôle de X et Y, 
la conclusion serait la même. 

Considérons maintenant le cas où les résultats expérimentaux produisent la 
représentation de la figure ci-dessous. 

Dans ce cas, au contraire, on voit clairement que la connaissance 

de xo (respectivement y i ) modifie le domaine des valeurs possibles, donc attendues 

de Y (respectivement X) ; les deux variables X et Y sont liées. 
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JC 


La modification ici concerne aussi bien l’amplitude du domaine que sa localisation en 
termes de valeurs. 

L’appréciation visuelle de la dépendance correspond à l’appréciation de « l’épaisseur » 
de l’ensemble des points. Plus les points expérimentaux ont tendance à se répartir sur une 
courbe - non horizontale ni verticale - plutôt qu’à remplir une partie du plan, plus les 
variables sont liées. 

Peut-on trouver un indicateur numérique de la force d’une telle liaison ? Au sens strict, la 
réponse est non. 

Quelques situations de dépendance - c’est-à-dire de liaison - sont représentées sur les 
figures ci-dessous. 



V 


X 




X 


x x x 

X 


X 
X X 
x X 
X X X 


X x 

x x X 
X x 


X*x 

XX 

X 


X 


JC 


On ne sait pas, en toute généralité, résumer en un seul nombre exprimant la liaison entre 
deux variables continues les résultats d’une expérience. 

On ne connaît qu’un indicateur général prenant en compte non pas le degré de proximité 
à une courbe quelconque mais le degré de proximité à une droite : c’est le coefficient de 
corrélation [linéaire]. 

Il faut voir cependant que dans la plupart des situations réelles au cours desquelles on 
s’intéresse à l’examen de la liaison entre deux variables, la possibilité d’interprétation 
des résultats est largement fonction du caractère monotone, sinon rectiligne, de la 
dépendance ; que dire en termes d’interprétation d’une dépendance figurée 
schématiquement sur la figure ci-dessous ? 
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14.3 - Un indicateur de covariation : le coefficient de corrélation 

Cherchons alors à quantifier un phénomène de covariation, c’est-à-dire un phénomène de 
variation couplée entre A etL. 

On impose naturellement à l’indicateur recherché une invariance par translation : les 
phénomènes productifs de X et ^demeurent fondamentalement inaltérés s’ils 

produisent X + a, Y + b. Ainsi l’indicateur se fondera-t-il sur les valeurs x * et ' ' ■ . 

Par ailleurs, on souhaite que l’indicateur ne dépende pas des unités exprimant A et Y ; alors 
on travaillera sur 


Ai 


*i - m x 


" X 


et v ri — 

L - fi 


J j V 


Maintenant si Y et Y présentent un caractère de covariation, c’est que de façon fréquente, 
sinon systématique 

• soit les variables varient dans le même sens, c’est-à-dire lorsque Xi est grand 
(i.e. Xri positif par exemple), y, l’est également le plus souvent (i.e. y n positif), que 
lorsque xi est petit (xn < 0) yu l’est également (y n < 0) ; dans ce cas, le produit XriYn est 
fréquemment positif. 

• soit les variables varient en sens contraire : lorsque Xi est grand, yi est petit, 
lorsque x, est petit, yt est grand ; dans ce cas le produit x n y ri est fréquemment négatif. 

Compte tenu de l’analyse précédente, on choisit pour indicateur de la covariation ou 
corrélation le nombre : 


r 



T x rïri 


Ainsi 


• si r est grand, c’est le signe d’une covariation dans le même sens de A et F ; 

• si r est petit (c’est-à-dire grand en valeur absolue et négatif), c’est le signe d’une 
covariation de A et Y en sens contraire ; 

• si r est voisin de zéro, c’est le signe d’une absence de covariation. 

Retenons, exprimé sur la base des valeurs observées : 


2 (x - jwJ) (y ; - wî.à 
i >- 


r — 


s x s Y 


Le numérateur de cette expression est appelé la covariance observée des deux 
variables A et Y , notée covo(X, Y), dont on montre qu’elle s’exprime aussi sous la forme 

Les figures ci-dessous présentent diverses situations relativement au coefficient de 
corrélation observé. 
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r> 0, grand 


r< 0 , Irl grand 





r voisin de zéro 

Propriétés numériques fondamentales de r : 

• r a toujours une valeur comprise entre -1 et 1 ; 

• r prend la valeur -1 (respectivement 1) si et seulement si il existe des 
valeurs a et b telles qu’on ait pour tout (y, = axt + b avec a négatif 
(respectivement a > 0). 

Remarques : 

• plus r est grand en valeur absolue, plus les variables sont dites corrélées, 

• la valeur absolue de r décroît, 

o lorsque s’estompe le caractère rectiligne du « nuage » des valeurs observées, 
o lorsque s’épaissit ledit nuage, 

• une valeur absolue très faible du coefficient de corrélation ne permet pas de conclure 
à l’indépendance de deux variables. Deux variables indépendantes présenteront en 
revanche un coefficient de corrélation observé très faible en valeur absolue. 

Quelques exemples sont présentés ci-dessous pour fixer les idées. 



V 
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r~ 0,9 


r~ 0,7 




0.7 


v 



0,6 



r~ 0,5 


r ~ 0,5 




r ~ 0 r ~ 0 

Remarque complémentaire : 

Le coefficient de corrélation linéaire est, au même titre que toute statistique, soumis aux 
fluctuations d’échantillonnage. La question se pose alors de savoir que faire de cet indicateur 
en termes d’inférences. Par exemple, avant de conclure que les deux variables sont corrélées, 
peut-on se garantir du risque de l’observation d’un coefficient de corrélation nul sur une plus 
grande série d’observations ? On se retrouve dans le contexte des tests d’hypothèses avec ici 
une difficulté supplémentaire qui tient au fait que l’on n’a pas quitté le niveau expérimental, 
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le niveau intuitif. Il convient de trouver une contrepartie « vraie » à ce coefficient de 
corrélation observé r. 

14.4 Le coefficient de corrélation « vrai » 

Cherchons à substituer de la façon la plus naturelle possible des grandeurs « vraies » aux 
grandeurs observées constitutives de r. On note l’apparition au dénominateur 
de sx et s y auxquelles on substitue naturellement ox et or, les écarts types « vrais » de A et Y. 
Au numérateur on remarque m x et m y auxquels on substitue E(X) et E( Y) les moyennes 
« vraies » de X et Y. Reste au numérateur une moyenne observée (lisons n à la place de n-l) ; 
on lui substitue une moyenne « vraie » : moyenne « vraie » du produit [X - E(X)][Y - E(Y)], 
soit E{ [X - E(X)][Y - E(Y )] }. 

Cette moyenne « vraie » dépendant de X et Y à la fois s’appelle covariance 
« vraie » de X et ^.Finalement, on obtient la contrepartie « vraie » notée p : 

yj = E{{X-E(_X)][Y-E(m 


Remarque : à propos des notions d’espérance, de covariance « vraie », de coefficient de 
corrélation « vrai », voir le chapitre 6. 

14.5 Test d’égalité du coefficient de corrélation « vrai » p à 0 

Des calculs théoriques complexes, et imposant un certain nombre de restrictions, qui, 
dépassant le cadre de ce cours, ne seront pas mentionnés, permettent de calculer la 
distribution de r sous l’hypothèse - retenue comme hypothèse nulle - de nullité du 
coefficient de corrélation « vrai » p. Il s’agit d’une famille de distributions indexées par un 
entier appelé nombre de degrés de liberté. La mise en œuvre du test est alors 
conventionnelle : 


Ho : p = 0 [les variables ne sont pas corrélées], 

Hi : p ^ 0 [les variables sont corrélées] 

Paramètres du test : coefficient de corrélation observé 

1 

-y 1 ( X: - m ) O; - mj 

n- 14 - ' * 

r - ' 

s x s Y 




sous Ho, r suit une distribution connue, dite du coefficient de corrélation à n - 2 degrés 
de liberté où n est le nombre de couples {xi, yï) expérimentaux. L’intervalle de pari 
pour r est de la forme 


IP 


1 -o = [ - corr * ( '' - ■ 2) ■ conr > - 2) 1 - 2) étant lue dans une table. 


Conditions de validité 

Les conditions de validité sont complexes et expriment que toute combinaison 
linéaire des variables A et F est distribuée selon une loi normale. Autrement dit, toute 
variable aX + bY où a et b sont deux nombres quelconques doit être normale.Pour la 
commodité de l’expression, on énoncera les conditions de validité sous le néologisme 
« distribution de (A, Y) binormale ». 


• la suite de la mise en œuvre est standard. 


Quelques exemples numériques 
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Au risque 5 % : 

n= 10, IP 0,95 = [-0,632 ; 0,632], ddl = 8 
n = 20, IP 0,95 = [-0,444 ; 0,444], ddl = 18 
n = 50, IP 0,95 = [-0,280 ; 0,280], ddl = 48 

Ainsi, par exemple, pour pouvoir conclure à la corrélation, lorsque l’on dispose de 20 
observations (20 couples ( xuyt )), le coefficient de corrélation observé doit être supérieur à 
0,444, ou inférieur à -0,444. 

Autre formulation du test 


î = 

On peut montrer que 



est, sous Ho, distribué selon une loi de Student à n - 2 ddl. 


Si on préfère utiliser ce paramètre plutôt que r, il faut lire la table de Student pour construire 
l’intervalle de pari. 

Résumé du chapitre 

1. La corrélation entre deux variables aléatoires quantitatives A et P se mesure à l’aide 

du coefficient de corrélation « vrai » : 

^ = E{[X-E(X)][Y-E(m 

ayij 

Propriétés : 

o p(X, Y) e [-1 ; 1] 

o Si A, F indépendantes, alors p(A, Y) = 0 


2. Disposant d’un échantillon de n couples (x h y,) on définit le coefficient de corrélation 
observé : 


— î-j-T 1 (Xj - (y - t - m v ) ( - V xy- 

n — 1 1 J ‘ v - n- 1 W9 


; V; - m x m v 


r = 


S X S Ï 

Propriété ; r Ê 1 - 1 ; H 


s x s Y 


3. Il existe un test de nullité du coefficient de corrélation « vrai » dont le paramètre 
est r. 


4. Indépendance et corrélation sont des notions différentes ; deux variables dont le 
coefficient de corrélation « vrai » est nul peuvent être liées. 
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Chapitre 15 - Méthodologie des études 

épidémiologiques 


15.1 La causalité 

La causalité est une thématique centrale en philosophie des sciences et en logique, et les 
premiers écrits sur ce sujet remontent à Aristote. Jusqu’au 18 ème siècle, la causalité nait de 
l’observation, et les connaissances sont construites à partir des observations sans idée 
préconçues du réel (inférence dite inductive). Nous formons alors une sorte d’anticipation, 
qui nous représente que le second événement (l’effet) doit se produire quand le premier (la 
cause) se produit - même si les mécanismes explicatifs liant ces deux événements nous 
échappent. Dans la vie courante, l’acquisition de nos apprentissages ou l’application des 
règles de « bon sens », illustrent cette conception de la causalité. Hume, philosophe écossais, 
montrera pourtant les limites de ce principe et l’impossibilité de prouver la relation causale 
de l’observation de la succession de deux événements dont on ne peut jamais exclure la 
coïncidence. 

Le questionnement sur la causalité en médecine est également ancien. Claude Bernard écrit 
en 1865 : 

« L ’ esprit de l ’ homme ne peut concevoir un effet sans cause, de telle sorte que la vue d ’un 

phénomène éveille toujours en lui une idée de causalité. Toute la connaissance humaine se 

\ 

borne à remonter des effets observés à leur cause. A la suite d’une observation, une idée 
relative à la cause du phénomène observé se présente à l ’ esprit ; puis on introduit cette idée 
anticipée dans un raisonnement en vertu duquel on fait des expériences pour la contrôler. » 

On retrouve dans ce propos une conception différente de la causalité : il s’agit de déduire (au 
sens strict) les conséquences d’une hypothèse et ensuite de comparer ces conséquences aux 
données. S’il y a désaccord, alors l’hypothèse est réfutée. Dans le cas contraire, l’hypothèse 
n’est pas prouvée mais notre croyance en elle s’en trouve renforcée. Cette conception, de 
type déductif, formalisée par Karl Popper au début du 20 ème siècle, s’est imposée comme le 
socle de la découverte scientifique. 

Des livres d’épidémiologie entiers, dont certains très mathématiques utilisant les outils de la 
logique, traitent de ce problème de la causalité. On retiendra qu’une relation causale entre 
deux caractères pourra être évoquée lorsque l’un des deux est « contrôlé ». L’essai contrôlé 
est la seule méthode qui permet de mesurer l’effet causal d’une intervention, par exemple un 
traitement, sur un événement, par exemple, la guérison d’une maladie. 

15.2 Démarche expérimentale et démarche d’observation 

Caractère contrôlé ; caractère aléatoire 

Dans ce qui suit, les termes caractère, caractéristique, variable et facteur sont 
considérés comme synonymes. 

On dit d’un caractère qu’il est contrôlé lorsque sa déter mi nation nous 
appartient. Exemple : on s’intéresse à l’effet d’un traitement sur la survenue d’un 
type de cancer chez des souris. Le caractère absence ou présence du traitement est 
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contrôlé car déterminé par l’expérimentateur. 

Dans le cas contraire, on dit que le caractère est aléatoire. Exemple : la survenue du 
cancer chez la souris. 

Lorsqu’on envisage un problème de liaison entre deux variables (cela recouvre tous 
les problèmes que l’on a rencontrés) un au plus des caractères peut être contrôlé. 

Démarche expérimentale 

Lorsque l’expérience se conduit avec un facteur contrôlé, on dit que l’on suit 
une démarche expérimentale. Dans ce cas, au cours de la constitution de 
l’échantillon qui permettra de mettre en œuvre les tests, on décide du choix de la 
valeur d’un caractère (par exemple, on décide si le X ème patient sera traité ou non, et 
on étudie la guérison de la maladie). 

Démarche d’observation 

Lorsque l’expérience se conduit sur la base de deux facteurs aléatoires, on dit que l’on 
suit une démarche d’observation (par exemple, on observe si le X ème sujet est 
fumeur ou non, et on étudie la survenue de cancer). 

Principe fondamental 

La discussion de la causalité ne se conçoit pas sans contrôle d’un des deux caractères 
étudiés. 

Autrement dit, on ne peut mesurer un effet causal hors d’une démarche 
expérimentale. 

Seule cette démarche, en effet, permet d’assurer que les individus constituant 
l’échantillon sont comparables en tout (homogènes) sauf pour ce qui concerne le 
caractère contrôlé. Encore faut-il assurer cette homogénéité et la méthode de 
référence est le tirage au sort. On parle de randomisation pour l’attribution par 
tirage au sort du caractère contrôlé, le traitement. 

15.3 - Les essais randomisés 

15.3.1 Définition 

Le but de l’essai randomisé est, grâce à une démarche expérimentale rigoureuse, d’évaluer 
l’efficacité d’une intervention de santé, par exemple un nouveau traitement - on parle alors 
d’essai thérapeutique randomisé. Il peut s’agir également d’une autre intervention médicale, 
par exemple une technique chirurgicale, un programme d’éducation pour la santé, un 
dispositif médical, une méthode diagnostique. 

Dans un essai thérapeutique pour une maladie, on cherche le plus souvent à montrer qu’un 
nouveau traitement a une efficacité supérieure à celle du traitement habituellement utilisé 
dans cette maladie, ou à l’absence de traitement (notamment lorsqu’il n’existe pas encore de 
traitement d’usage pour la maladie étudiée). Parce que l’attribution du traitement est 
contrôlée et décidée par tirage au sort, on sera le cas échéant en mesure de conclure qu’une 
différence d’efficacité est causée par le traitement (au risque d’erreur statistique choisi). La 
réalisation d’un essai thérapeutique nécessite donc de définir le critère que l’on utilisera pour 
juger de l’efficacité - appelé critère de jugement. Des exemples de critères de jugement 
sont la régression des symptômes d’une maladie, la durée de survie, la valeur d’une 
constante biologique, un score de qualité de vie .... En pratique on distingue les critères de 
jugement objectifs, reposant sur une grandeur évaluable par une mesure physique objective, 
par exemple la charge virale, la concentration de cholestérol sanguin, la survie, ... 


Nursunity 


Page 120 


des critères de jugement subjectifs, qui peuvent être influencés par des effets de type 
psychologique, par exemple la douleur, l’anxiété, la qualité de vie, la mesure d’une 
impotence à une épreuve de marche, ... L’essai thérapeutique doit être organisé afin de 
limiter au maximum les biais pouvant modifier le déroulement de l’essai ou l’interprétation 
du critère de jugement. 

15.3.2 Comment limiter les biais dans le déroulement d’un essai 
thérapeutique randomisé ? Aveugle et placebo 

Le placebo est une présentation à l’identique du médicament à l’étude mais qui ne contient 
pas le principe actif. Ainsi lorsqu’un essai randomisé contre placebo est réalisé, un sujet 
dans l’essai recevra au hasard soit le médicament à l’étude soit une copie de ce médicament, 
et ni ce sujet, ni le médecin qui le prend en charge dans l’étude, ni la personne (souvent le 
médecin) qui évaluera le critère de jugement ne sauront ce qui est réellement pris. On parle 
dans ce cas de mise en insu ou d’aveugle. Les sujets recevant le placebo constituent ce que 
l’on appelle le groupe témoin(ou groupe contrôle par anglicisme). L’aveugle est justifié 
pour deux raisons principales : 1) d’une part, parce qu’il garantit que les patients seront a 
priori pris en charge et suivis de la même manière dans l’essai quel que soit le groupe dans 
lequel ils ont été randomisés. En l’absence d’aveugle, un patient recevant, par exemple, un 
placebo, pourrait être amené plus facilement à interrompre rapidement sa participation dans 
l’essai (puisqu’il a le placebo) pour pouvoir bénéficier d’un autre traitement, contrairement à 
un patient recevant le traitement à l’étude ; un patient recevant le traitement à l’étude 
pourrait faire l’objet de plus d’attention que celui du groupe placebo et 2) d’autre part, parce 
qu’il permet d’éviter une interprétation tendancieuse ou biaisée du critère de jugement si 
celui-ci est subjectif. L’évaluateur d’une douleur résiduelle 6 mois après le début de l’essai 
sera inévitablement influencé dans son jugement s’il connaît le groupe du patient, et aura 
tendance à trouver une plus grande efficacité sur la douleur chez les patients qui reçoivent le 
traitement à l’étude que chez les patients du groupe témoin. 

D’ailleurs, en cas d’absence d’aveugle, le simple fait de soumettre un sujet à un traitement 
améliore souvent un critère de jugement subjectif, même si ce traitement n’a aucune 
efficacité intrinsèque : c’est l’effet placebo. 

L’effet placebo est défini co mm e l’écart positif constaté entre l’effet thérapeutique observé 
et l’effet pharmacologique propre d’un médicament. Si l’on donne une substance inerte sur 
le plan pharmacologique, on observera uniquement un effet placebo. On considère ainsi que 
l’homéopathie ou d’autres médecines « douces », relèvent uniquement de l’effet placebo et 
donc que l’effet de ces thérapeutiques est exclusivement subjectif. Dans un essai en aveugle, 
l’effet placebo est réparti de la même manière entre les deux groupes de patients, et la 
différence observée est donc imputable aux seules propriétés pharmacologiques du 
traitement. 

Un essai contre placebo en aveugle peut porter sur d’autres interventions que le seul 
médicament. Un exemple célèbre récent porte sur la chirurgie du genou chez les sujets 
obèses. Jusque récemment, tous les essais indiquaient une amélioration franche de la douleur 
et de la mobilité chez les sujets randomisés dans le groupe ayant subi l’intervention 
chirurgicale ligamentaire par rapport à ceux randomisés dans le groupe sans intervention. 
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Jusqu’au jour où un essai fut conduit comparant des sujets chez qui l’intervention sur les 
ligaments était réalisée, à des sujets endormis et chez lesquels un simulacre d’intervention 
(ouverture/fermeture simple de la cavité articulaire) était réalisé. Le résultat montrait 
l’amélioration de la douleur dans les deux groupes (l’effet placebo), et l’absence de 
différence entre les deux groupes (donc l’absence d’efficacité intrinsèque de l’intervention). 

15.3.3 Comment limiter les biais dans l’analyse d’un essai 
thérapeutique randomisé ? Intention de traiter 

L’analyse des résultats d’un essai thérapeutique est effectuée grâce à la méthode statistique. 
Ce sont les tests statistiques qui permettent de conclure si les différences observées entre le 
groupe de sujets traités et le groupe de sujets non traités ou recevant le placebo permettent 
de rejeter ou non l’hypothèse d’égalité de traitement, c’est-à-dire de conclure qu’un 
traitement est ou non meilleur que l’autre. De façon tout à fait générale, les tests employés 
sont des tests bilatéraux. De façon tout aussi générale, dans ce type d’essai de supériorité ou 
d’efficacité, l’analyse statistique est effectuée selon le principe de l’intention de traiter. Ce 
principe consiste à considérer le patient dans l’essai littéralement « tel qu’on avait l’intention 
de le traiter », c’est à dire, dans le groupe dans lequel il avait été randomisé - peu importe ce 
qui a été réellement pris. Par exemple, un patient randomisé dans le groupe placebo pourrait 
en réalité recevoir le traitement à l’essai pendant toute la durée de l’étude, par simple erreur 
au moment de la délivrance du médicament : quand bien même, ce patient sera analysé dans 
le groupe placebo. Le principe de l’analyse en intention de traiter a pour objectif de 
préserver les bénéfices de la randomisation au moment de l’analyse des résultats, et de 
limiter les biais liés aux écarts entre le protocole de l’essai et la conduite de celui-ci. En 
pratique, la conséquence implicite d’une analyse en intention de traiter sera que tout patient 
randomisé sera inclus dans l’analyse y compris ceux n’ayant pas bien voire pas du tout pris 
le traitement qui leur était alloué. 

Cependant, les études randomisées ne sont pas toujours réalisables d’où l’importance de la 
question de causalité dans les études observationnelles en médecine. En particulier, si 
l’expérimentation peut parfois permettre de mesurer un effet causal entre un traitement et 
une maladie, elle est très souvent impossible lorsque la cause potentielle étudiée est un 
risque. 

15.4 - Les études d’observation 

On regroupe sous cette terminologie, les études dont l’objectif est d’identifier les facteurs 
associés à des événements de santé et ne reposant pas sur une démarche expérimentale. Il est 
en effet contre les principes éthiques d’exposer une personne à une cause potentielle de 
maladie pour étudier comment celle-ci survient - par exemple faire fumer par tirage au sort 
des sujets pour étudier le rôle du tabac dans les cancers. En revanche, les personnes d’elles- 
mêmes se répartissent souvent en exposées / non exposées (ex : fumeur/non fumeur), et le 
but de ces études d’observation sera donc d’étayer avec la meilleure démarche possible 
l’hypothèse testée à partir de ces observations. 

Les études d’observation peuvent être catégorisées en cohortes - cas-témoins et 
transversales ; prospectives et rétrospectives. On notera que cette terminologie peut 
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s’appliquer également à la démarche expérimentale : un essai thérapeutique est une étude 
prospective imposant un recueil de données longitudinales. Dans les études d’observation, 
on étudie le plus souvent l’association entre une exposition et un événement de santé. 

L’exposition peut être un risque (par exemple fumer, un polymorphisme génétique), ou un 
bénéfice (par exemple un traitement, le poids). Des événements de santé sont par exemple, 
la survenue d’une maladie, une guérison, un décès, une récidive, etc ... 

15.4.1 Cohortes - Cas-témoins et études transversales 

Etudes de cohorte 

Une cohorte était le dixième d'une légion romaine. C'est plus généralement un 
ensemble de sujets. Dans une étude dite de cohorte les sujets sont répartis en 
groupes en fonction de leur exposition (par exemple, fumeur/non fumeur) et 
l'événement n'est pas survenu au moment où cette répartition est faite. Chacun de 
ces groupes définit une « sous cohorte », et la comparaison du taux de survenue de 
l'événement entre ces différentes sous cohortes, permettra de mesurer l'association 
entre exposition et événement. D'un point de vue pratique l'étude de cohorte est la 
démarche d'observation la plus « proche » de l'essai randomisé, la principale 
différence étant que dans un essai, l'attribution de l'exposition (le traitement) est 
réalisée par tirage au sort. 

Etudes cas-témoins 

Dans une étude cas-témoins (ou cas-contrôle), les groupes de sujets sont 
constitués en fonction de leur réalisation ou non de l'événement de santé : les cas 

sont par exemple les malades atteints d'un cancer et les témoins, des sujets non 
atteints de ce cancer. On compare les niveaux d'exposition dans ces deux groupes 
pour étudier l'association entre exposition et événement de santé. En général, on 
choisit de un à 4 témoins pour chaque cas et la proportion de malades dans l'étude 
est complètement déterminée (de 50 % pour 1 témoin pour 1 cas, à 20 % pour 4 
témoins par cas), et ne correspond en rien à la proportion de malades dans la 
population cible. 

Etudes transversales 

Une étude transversale est une étude descriptive dont le principe est 
essentiellement de recueillir simultanément des informations sur expositions et 
événements de santé sur un échantillon représentatif de la population cible - celle à 
laquelle on souhaite pouvoir extrapoler les résultats. Les enquêtes de prévalence 
sont un exemple typique de ces études transversales, dans lesquelles on évalue le 
nombre de malades présents à un instant dans la population, et qui identifie les 
facteurs associés aux variations de prévalence. Ces études transversales sont 
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limitées par l'absence de description temporelle des expositions (et des 
événements), mais peuvent permettre d'identifier des relations entre événement de 
santé et exposition lorsque celles-ci sont invariables dans le temps (par exemple, le 
sexe, le groupe sanguin, ...)• 

1 5.4.2 Etudes prospectives et rétrospectives 

Une étude est dite prospective lorsque l’exposition est mesurée avant la survenue de 
l’événement étudié. Une étude est dite rétrospective lorsque la mesure de l’exposition 
survient après la survenue de l’événement. Par exemple, une étude dans laquelle on mesure 
la consommation journalière de tabac, et dans laquelle on observe la survenue de cancer au 
cours du suivi des sujets est une étude prospective ; a contrario, demander la consommation 
de tabac des dix dernières années à des sujets ayant un cancer est une étude rétrospective. 

On notera que cette définition de prospective/rétrospective n’est pas consensuelle, et les 
épidémiologistes modernes recommandent de ce fait, de ne plus utiliser cette terminologie. 

15.4.3 Données longitudinales 

On dit que les données sont longitudinales lorsque qu’il existe plusieurs mesures à travers le 
temps par sujet. Par exemple, la mesure du taux de cholestérol chez un sujet tous les 6 mois, 
ou la mesure du statut fumeur/non fumeur au cours du temps est une donnée longitudinale. 
Les mesures longitudinales chez un même sujet ne peuvent pas être considérées comme 
réalisation de variables aléatoires indépendantes ; par exemple, le taux de cholestérol d’un 
sujet à un instant quelconque apporte une information sur le taux de cholestérol du même 
sujet 6 mois plus tard. Il faudra tenir compte de cette non-indépendance dans les analyses 
statistiques de ces données - qui seront souvent complexes. 

15.4.4 En pratique 

Le plus souvent, une étude de cohorte sera prospective, et aura recueilli des données 
longitudinales. Le plus souvent une étude cas-témoins sera rétrospective. 


15.5 - Mesures d’association utilisées en épidémiologie 

On traite le cas le plus simple où une exposition est répartie en deux niveaux (oui/non, 
présent/absent, exposé/ non exposé), et on notera E+ l’exposition, E- l’absence d’exposition 
au facteur étudié. 

L’événement d’intérêt est également catégorisé en deux niveaux, M+ pour malade, M- pour 
non-malade. On notera que dans le cas d’un essai thérapeutique E+ est le traitement à 
l’étude, et M- peut être défini comme le succès thérapeutique, donc ce qui suit s’applique 
aussi bien à l’essai randomisé qu’aux études d’observation. 

A partir de cette catégorisation, il est possible de dresser le tableau suivant : 
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On définit 



M+ 

M- 

E+ 

ni 

n2 

E- 

n3 

n4 


• le risque absolu chez les exposés, comme la proportion vraie de malades parmi les 
exposés 

P(M+ I E+), estimé par nl/(nl+n2) 

• le risque absolu chez les non exposés, comme la proportion de malades chez les non 
exposés, P(M+ I E-), estimé par n3/(n3+n4) 

• le risque relatif est une mesure d’association, défini co mm e le rapport des risques 
absolus chez les exposés et non exposés, P(M+ I E+) / P(M+ I E-). 

Ce risque est estimé par nl/(nl+n2) / n3/(n3+n4) 

• le rapport des cotes (odds-ratio en anglais) est une autre mesure d’association très 
utilisée en biomédecine. Rappelons que la cote d’un événement est définie comme le 
rapport de sa probabilité sur son complémentaire : jouer à une cote de 9 contre 1 
signifie jouer avec 9 chance de perdre contre une chance de gagner. 

Le rapport des cotes est défini comme le rapport de la cote de la maladie chez les 
exposés P(M+ I E+)/P(M- 1 E+) sur la cote de la maladie chez les non-exposés 
P(M+ I E-)/P(M- 1 E-), mais aussi, par application du théorème de Bayes, comme le 
rapport de la cote des expositions chez les malades P(E+ I M+)/P(E- 1 M+), par la cote 
des expositions chez les non malades P(E+ I M-)/P(E- 1 M-). Il est estimé par le 
rapport des produits croisés (nln4) / (n2n3). 

Le rapport des cotes est la seule quantité pertinente qui peut être estimée dans une étude cas- 
témoins puisque le nombre total de sujets non malades est déterminé par le nombre de 
témoins choisi par cas. Si la maladie est rare dans la population cible, aussi bien chez les 
exposés que chez les non-exposés, P(M+) est proche de 0 et donc P(M-) voisin de 1, et P( 
M+ I E+)/P(M- I E+) est voisin de P( M+ I E+) ; P(M+ I E-)/P(M- 1 E-) proche de P(M+ I E-) 
et donc le rapport des cotes défini ci-dessus est proche de du risque relatif. 

Le risque relatif et le rapport des cotes sont des quantités qui peuvent prendre les valeurs 
entre 0 et l’infini. Sous l’hypothèse (nulle) d’indépendance entre l’exposition et l’événement 
étudié, ces deux quantités valent 1 . 

Un risque relatif ou un rapport de cotes supérieur à 1 (conclusion que l’on portera après 
avoir fait le test d’hypothèse approprié) signifie que l’exposition est un facteur de risque de 
l’événement étudié. Un risque relatif ou un rapport de cotes inférieur à 1 signifie que 
l’exposition est un facteur protecteur de l’événement. Un risque relatif de 50 (par exemple) 
pour l’exposition « fumeur » et l’événement « cancer du poumon » s’interprète littéralement 
comme « il y a 50 fois plus de cancer du poumon chez les fumeurs que chez les non 
fumeurs ». 
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15.6 - Risque attribuable, proportion de cas évitables 


Le risque attribuable à un facteur est la proportion des cas que l’on pourrait éviter en 
supprimant ce facteur, lorsqu’il est causal. Par exemple, le risque de cancers du poumon 
attribuable au tabac est de l’ordre de 90 % (si on supprimait par magie le tabac, environ 
10 % des cancers des bronches surviendraient encore, car ils sont dus à d’autres facteurs). 

Soit : 

• N le nombre total de malades ; 

• Nf le nombre de malades exposés au facteur F ; 

• Nnf le nombre de malades non exposés au facteur F. 

On peut écrire N = Nf + Nnf. 

Parmi les N Pr{M) cas totaux de maladie, on ne peut éviter les N Pr(M/NF) cas qui seraient 
survenus de toute façon en l’absence du facteur F. On peut espérer éviter les NF autres. La 
proportion maximale de cas que l’on peut éviter est donc : 

Pr(M) -Pr{M/NF) 

Pr{M) 

Soit/la proportion de sujets exposés. En écrivant que : Pr{M) -fVr(MIF) + (1 -f) Pr(M/NF ) 
on trouve que le risque attribuable vaut : 


jTRR-1) 

/T RR - 1)+ 1 

Résultat : 

Dans une population où une proportion / des sujets est exposée à un 
facteur F augmentant le risque de maladie, cette augmentation étant caractérisée par 
le risque relatif RR = Pr( M IF)IPr( M /N F ) , le risque attribuable au facteur, c’est à dire 
la proportion maximale de cas qui peut être évitée vaut 

/[RR - 1) 
fi RR - 1)+ 1 

La proportion calculée grâce à cette formule est « maximale » : elle n’est atteinte que si le 
facteur F a un rôle causal dans le déclenchement de la maladie. Par exemple, l’exposition au 
tabac est un facteur causal du cancer des bronches. L’alcoolisme ne l’est pas. Pourtant, le 
risque relatif RR de cancer des bronches chez les alcooliques est supérieur à 1 parce que les 
alcooliques sont plus souvent fumeurs que les non alcooliques. L’alcoolisme est appelé 
facteur de confusion. Bien entendu, en supprimant l’alcool, on ne supprimerait pas le cancer 
des bronches ! 
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Résumé du chapitre 


1 . L’essai contrôlé randomisé permet de mesurer de l’effet causal d’une intervention de 
santé, un traitement par exemple. 

2. La randomisation qui consiste à tirer au sort l’attribution de l’intervention, permet 
d’assurer que les individus constituant l’échantillon sont comparables en tout 
(homogènes) sauf pour ce qui concerne le caractère contrôlé. 

3. Dans un essai randomisé, le critère de jugement est la variable qui sera comparée 
entre les groupes pour juger de l’efficacité de l’intervention. On distingue critères de 
jugements objectifs (ex : décès) et subjectifs (ex : douleurs), ces derniers pouvant être 
facilement influencés par d’autres effets que les effets propres de l’intervention. 

4. L’effet thérapeutique dans un essai est la somme de l’effet pharmacologique propre et 
de l’effet placebo. 

5. La mise en aveugle qui signifie que ni le patient, ni le médecin qui le suit, ni 
l’évaluateur du critère ne savent dans quel groupe est randomisé le patient, est utilisée 
pour limiter les biais. 

6. L’analyse en intention-de-traiter signifie que l’on compare le critère de jugement 
entre les groupes tels qu’ils ont été constitués par la randomisation. Elle implique que 
tous les patients randomisés sont conservés dans l’analyse. 

7. Dans une étude d’observation, il n’est pas possible de conclure causalement, juste de 
mettre en évidence des associations entre expositions (par exemple fumer) et 
événement de santé (par exemple un cancer). 

8. Les études d’observations visent à identifier les facteurs associés à des événements de 
santé ; il s’agit souvent de risques. 

9. On distingue les études de cohortes, où les sujets sont répartis en groupes en fonction 
de leur exposition (ex : fumeur/non fumeur) ; les études cas-témoins, où les sujets 
sont répartis en groupes en fonction de la réalisation ou non de l’événement de santé 
(ex cancer / pas cancer) ; les études transversales, où expositions et événements sont 
mesurés simultanément. 

10. Une étude est dite prospective lorsque l’exposition est mesurée avant la survenue de 
l’événement étudié. Une étude est dite rétrospective lorsque la mesure de l’exposition 
survient après la survenue de l’événement. 

1 l.Le risque relatif et le rapport des cotes mesurent la force de l’association entre 
l’exposition et l’événement de santé étudié. Ils valent 1 en cas d’absence 
d’association. 
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Annexe - Tables statistiques 


A.1 - TABLE DE LA VARIABLE NORMALE REDUITE Z 


t, 





1 ). 


r[ 


a 

0,00 

0,01 

0,02 

0,03 

0,04 

0,05 

0,06 

0,07 

0,08 

0,09 

0,00 

OC 

2,576 

2,326 

2,170 

2,054 

1,960 

1,881 

1,812 

1,751 

1,695 

0,10 

1,645 

1,598 

1,555 

1,514 

1,476 

1,440 

1,405 

1,372 

1,341 

1,311 

0,20 

1,282 

1,254 

1,227 

1,200 

1,175 

1,150 

1,126 

1,103 

1,080 

1,058 

0,30 

1,036 

1,015 

0,994 

0,974 

0,954 

0,935 

0,915 

0,896 

0,878 

0,860 

0,40 

0,842 

0,824 

0,806 

0,789 

0,772 

0,755 

0,739 

0,722 

0,706 

0,690 

0,50 

0,674 

0,659 

0,643 

0,628 

0,613 

0,598 

0,583 

0,568 

0,553 

0,539 

0,60 

0,524 

0,510 

0,496 

0,482 

0,468 

0,454 

0,440 

0,426 

0,412 

0,399 

0,70 

0,385 

0,372 

0,358 

0,345 

0,332 

0,319 

0,305 

0,292 

0,279 

0,266 

0,80 

0,253 

0,240 

0,228 

0,215 

0,202 

0,189 

0,176 

0,164 

0,151 

0,138 

0,90 

0,126 

0,113 

0,100 

0,088 

0,075 

0,063 

0,050 

0,038 

0,025 

0,013 


La probabilité a s’obtient par addition des nombres inscrits en marge 
Exemple : pour u a = 0,994, la probabilité est a = 0,30 + 0,02 = 0,32 

TABLE POUR LES PETITES VALEURS DE LA PROBABILITÉ 


a 

0,001 

0,000 1 

0,000 01 

0,000 001 

0,000 000 1 

0,000 000 01 

0,000 000 001 

Ua 

3,29053 

3,89059 

4,41717 

4,89164 

5,32672 

5,73073 

6,10941 
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A.2 - TABLE DU TEST DE WILCOXON 



a 

fl 

0,05 

0,02 

0,01 

6 

2,118 



7 

1,961 

2,299 


8 

2,044 

2,324 

2,464 

9 

2,026 

2,263 

2,381 

10 

1,947 

2,253 

2,456 

11 

2,009 

2,276 

2,454 

12 

2,008 

2,322 

2,479 

13 

1,964 

2,313 

2,523 

14 

1,952 

2,329 

2,517 

15 

1,965 

2,306 

2,533 


Indique, pour n < 15 les valeurs de W a pour a = 0,05, 0,02 et 0,01. 


(d’après Fisher et Yates, Statistical tables for biological, agricultural, and medical research 
(Oliver and Boyd, Edinburgh) avec l’aimable autorisation des auteurs et des éditeurs) 
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A.3 - TABLE DU TEST DE MANN-WHITNEY-WILCOXON 



UA 



3 

4 

5 

6 

7 

8 

9 

10 

ub 

a 


4 

0,05 

2,333 

1,905 








0,01 

2,687 

2,483 







5 

0,05 

2,117 

2,107 

2,110 







0,01 

2,415 

2,596 

2,528 






6 

0,05 

1,962 

2,047 

2,118 

2,018 






0,01 

2,479 

2,473 

2,483 

2,498 





7 

0,05 

2,074 

2,003 

1,965 

2,086 

2,057 





0,01 

2,530 

2,570 

2,615 

2,514 

2,568 




8 

0,05 

1,960 

1,970 

1,991 

2,014 

2,037 

1,953 




0,01 

2,572 

2,480 

2,576 

2,530 

2,500 

2,584 



9 

0,05 

2,052 

2,099 

2,013 

1,956 

2,022 

1,982 

2,040 



0,01 

2,422 

2,561 

2,680 

2,546 

2,551 

2,560 

2,570 


10 

0,05 

1,961 

2,065 

2,033 

2,017 

2,010 

2,008 

2,009 

2,011 


0,01 

2,366 

2,489 

2,523 

2,560 

2,498 

2,541 

2,580 

2,540 


Indique, pour ha < 1 0 et nu < 10, ha < «s, les valeurs de M a , pour a=0,05 et a=0,01. 
Exemple : ha = 5, hb = 8 : Mo, 05=1,991 
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A.4 - TABLE DE x 2 


La table donne la probabilité a pour que / 2 égale ou 
dépasse une valeur donnée, en fonction du nombre de 
degrés de liberté (d. d. 1.) 

Quand le nombre de degrés de liberté est 

y — ^ 



X, et 

Jly 2 

élevé, v est à peu près distribué normalement 

, . V2(d.d.U - 1 . , , 

autour de v avec une variance égalé a 1 

O 



ddl / a 

0,90 

0,50 

0,30 

0,20 

0,10 

0,05 

0,02 

0,01 

0,001 

1 

0,0158 

0,455 

1,074 

1,642 

2,706 

3,841 

5,412 

6,635 

10,827 

2 

0,211 

1,386 

2,408 

3,219 

4,605 

5,991 

7,824 

9,210 

13,815 

3 

0,584 

2,366 

3,665 

4,642 

6,251 

7,815 

9,837 

11,345 

16,266 

4 

1,064 

3,357 

4,878 

5,989 

7,779 

9,488 

11,668 

13,277 

18,467 











5 

1,610 

4,351 

6,064 

7,289 

9,236 

11,070 

13,388 

15,086 

20,515 

6 

2,204 

5,348 

7,231 

8,558 

10,645 

12,592 

15,033 

16,812 

22,457 











7 

2,833 

6,346 

8,383 

9,803 

12,017 

14,067 

16,622 

18,475 

24,322 

8 

3,490 

7,344 

9,524 

11,030 

13,362 

15,507 

18,168 

20,090 

26,125 

9 

4,168 

8,343 

10,656 

12,242 

14,684 

16,919 

19,679 

21,666 

27,877 

10 

4,865 

9,342 

11,781 

13,442 

15,987 

18,307 

21,161 

23,209 

29,588 

11 

5,578 

10,341 

12,899 

14,631 

17,275 

19,675 

22,618 

24,725 

31,264 

12 

6,304 

11,340 

14,011 

15,812 

18,549 

21,026 

24,054 

26,217 

32,909 

13 

7,042 

12,340 

15,119 

16,985 

19,812 

22,362 

25,472 

27,688 

34,528 











14 

7,790 

13,339 

16,222 

18,151 

21,064 

23,685 

26,873 

29,141 

36,123 

15 

8,547 

14,339 

17,322 

19,311 

22,307 

24,996 

28,259 

30,578 

37,697 

16 

9,312 

15,338 

18,418 

20,465 

23,542 

26,296 

29,633 

32,000 

39,252 

17 

10,085 

16,338 

19,511 

21,615 

24,769 

27,587 

30,995 

33,409 

40,790 











18 

10,865 

17,338 

20,601 

22,760 

25,989 

28,869 

32,346 

34,805 

42,312 

19 

11,651 

18,338 

21,689 

23,900 

27,204 

30,144 

33,687 

36,191 

43,820 











20 

12,443 

19,337 

22,775 

25,038 

28,412 

31,410 

35,020 

37,566 

45,315 

21 

13,240 

20,337 

23,858 

26,171 

29,615 

32,671 

36,343 

38,932 

46,797 

22 

14,041 

21,337 

24,939 

27,301 

30,813 

33,924 

37,659 

40,289 

48,268 

23 

14,848 

22,337 

26,018 

28,429 

32,007 

35,172 

38,968 

41,638 

49,728 

24 

15,659 

23,337 

27,096 

29,553 

33,196 

36,415 

40,270 

42,980 

51,179 

25 

16,473 

24,337 

28,172 

30,675 

34,382 

37,652 

41,566 

44,314 

52,620 

26 

17,292 

25,336 

29,246 

31,795 

35,563 

38,885 

42,856 

45,642 

54,052 











27 

18,114 

26,336 

30,319 

32,912 

36,741 

40,113 

44,140 

46,963 

55,476 

28 

18,939 

27,336 

31,391 

34,027 

37,916 

41,337 

45,419 

48,278 

56,893 











29 

19,768 

28,336 

32,461 

35,139 

39,087 

42,557 

46,693 

49,588 

58,302 

30 

20,599 

29,336 

33,530 

36,250 

40,256 

43,773 

47,962 

50,892 

59,703 


Exemple : avec d. d. 1. = 3, pour Ki, a = 0,584 la probabilité est a = 0,90 

(d’après Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec 
l’aimable autorisation des auteurs et des éditeurs) 
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A.5 - TABLE DU COEFFICIENT DE CORRELATION 


La table indique la probabilité a pour que le 
coefficient de corrélation égale ou dépasse, 
en valeur absolue, une valeur donnée r a , 
c’est-à-dire la probabilité extérieure à 
l’intervalle (- r a , + r a ), en fonction du 
nombre de degrés de liberté (d. d. 1.) 



ddl \ a 

0,10 

0,05 

0,02 

0,01 

1 

0,9877 

0,9969 

0,9995 

0,9999 

2 

0,9000 

0,9500 

0,9800 

0,9900 

3 

0,8054 

0,8783 

0,9343 

0,9587 

4 

0,7293 

0,8114 

0,8822 

0,9172 

5 

0,6694 

0,7545 

0,8329 

0,8745 

6 

0,6215 

0,7067 

0,7887 

0,8343 

7 

0,5822 

0,6664 

0,7498 

0,7977 

8 

0,5494 

0,6319 

0,7155 

0,7646 

9 

0,5214 

0,6021 

0,6851 

0,7348 

10 

0,4973 

0,5760 

0,6581 

0,7079 

11 

0,4762 

0,5529 

0,6339 

0,6835 

12 

0,4575 

0,5324 

0,6120 

0,6614 

13 

0,4409 

0,5139 

0,5923 

0,6411 

14 

0,4259 

0,4973 

0,5742 

0,6226 

15 

0,4124 

0,4821 

0,5577 

0,6055 

16 

0,4000 

0,4683 

0,5425 

0,5897 

17 

0,3887 

0,4555 

0,5285 

0,5751 

18 

0,3783 

0,4438 

0,5155 

0,5614 

19 

0,3687 

0,4329 

0,5034 

0,5487 

20 

0,3598 

0,4227 

0,4921 

0,5368 

25 

0,3233 

0,3809 

0,4451 

0,4869 

30 

0,2960 

0,3494 

0,4093 

0,4487 

35 

0,2746 

0,3246 

0,3810 

0,4182 

40 

0,2573 

0,3044 

0,3578 

0,3932 

45 

0,2428 

0,2875 

0,3384 

0,3721 

50 

0,2306 

0,2732 

0,3218 

0,3541 

60 

0,2108 

0,2500 

0,2948 

0,3248 

70 

0,1954 

0,2319 

0,2737 

0,3017 

80 

0,1829 

0,2172 

0,2565 

0,2830 

90 

0,1726 

0,2050 

0,2422 

0,2673 

100 

0,1638 

0,1946 

0,2301 

0,2540 


Exemple : avec d. d. 1. = 30, pour r a = 0,3494 la probabilité est a = 0,05(d’après Fisher et Yates, Statistical tables for 
biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec l’aimable autorisation des auteurs 
et des éditeurs) 
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A.6 - TABLE DU t DE STUDENT 



ct/2 


A 


Ct /2 






ta 


a 

0,90 

0,50 

0,30 

0,20 

0,10 

0,05 

0,02 

0,01 

0,001 


î 

0,158 

1,000 

1,963 

3,078 


6,314 

12,706 

31,821 

63,657 

636,619 













2 

0,142 

0,816 

1,386 

1,886 

2,920 

4,303 

6,965 

9,925 

31,598 


3 

0,137 

0,765 

1,250 

1,638 


2,353 

3,182 

4,541 

5,841 

12,924 














4 

0,134 

0,741 

1,190 

1,533 


2,132 

2,776 

3,747 

4,604 

8,610 













5 

0,132 

0,727 

1,156 

1,476 

2,015 

2,571 

3,365 

4,032 

6,869 

6 

0,131 

0,718 

1,134 

1,440 

1,943 

2,447 

3,143 

3,707 

5,959 

7 

0,130 

0,711 

1,119 

1,415 

1,895 

2,365 

2,998 

3,499 

5,408 

8 

0,130 

0,706 

1,108 

1,397 

1,860 

2,306 

2,896 

3,355 

5,041 

9 

0,129 

0,703 

1,100 

1,383 

1,833 

2,262 

2,821 

3,250 

4,781 

10 

0,129 

0,700 

1,093 

1,372 

1,812 

2,228 

2,764 

3,169 

4,587 


11 

0,129 

0,697 

1,088 

1,363 


1,796 

2,201 

2,718 

3,106 

4,437 













12 

0,128 

0,695 

1,083 

1,356 

1,782 

2,179 

2,681 

3,055 

4,318 

13 

0,128 

0,694 

1,079 

1,350 

1,771 

2,160 

2,650 

3,012 

4,221 

14 

0,128 

0,692 

1,076 

1,345 

1,761 

2,145 

2,624 

2,977 

4,140 

15 

0,128 

0,691 

1,074 

1,341 

1,753 

2,131 

2,602 

2,947 

4,073 

16 

0,128 

0,690 

1,071 

1,337 

1,746 

2,120 

2,583 

2,921 

4,015 


17 

0,128 

0,689 

1,069 

1,333 


1,740 

2,110 

2,567 

2,898 

3,965 














18 

0,127 

0,688 

1,067 

1,330 


1,734 

2,101 

2,552 

2,878 

3,922 













19 

0,127 

0,688 

1,066 

1,328 

1,729 

2,093 

2,539 

2,861 

3,883 

20 

0,127 

0,687 

1,064 

1,325 

1,725 

2,086 

2,528 

2,845 

3,850 

21 

0,127 

0,686 

1,063 

1,323 

1,721 

2,080 

2,518 

2,831 

3,819 

22 

0,127 

0,686 

1,061 

1,321 

1,717 

2,074 

2,508 

2,819 

3,792 

23 

0,127 

0,685 

1,060 

1,319 

1,714 

2,069 

2,500 

2,807 

3,767 

24 

0,127 

0,685 

1,059 

1,318 

1,711 

2,064 

2,492 

2,797 

3,745 

25 

0,127 

0,684 

1,058 

1,316 

1,708 

2,060 

2,485 

2,787 

3,725 

26 

0,127 

0,684 

1,058 

1,315 

1,706 

2,056 

2,479 

2,779 

3,707 

27 

0,127 

0,684 

1,057 

1,314 

1,703 

2,052 

2,473 

2,771 

3,690 

28 

0,127 

0,683 

1,056 

1,313 

1,701 

2,048 

2,467 

2,763 

3,674 

29 

0,127 

0,683 

1,055 

1,311 

1,699 

2,045 

2,462 

2,756 

3,659 

30 

0,127 

0,683 

1,055 

1,310 

1,697 

2,042 

2,457 

2,750 

3,646 

00 

0,126 

0,674 

1,036 

1,282 

1,645 

1,960 

2,326 

2,576 

3,291 


Exemple : avec d. d. 1. = 10, pour t = 2,228, la probabilité est a = 0,05 (d’après Fisher et Yates, Statistical 
tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec l’aimable 
autorisation des auteurs et des éditeurs) 
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